Cas réel : application de l'apprentissage automatique à des données d'essais scientifiques

Dans le cadre d’une collaboration avec un laboratoire du pôle de sureté nucléaire de l’Institut de Radioprotection et Sûreté Nucléaire (IRSN), nous avons publié les conclusions de notre travail dans cet article scientifique.

Le papier est ici : _ Use of Artificial Intelligence algorithms for hodoscope measurement interpretations (Nuclear Inst. and Methods in Physics Research, A, 2021), Lien.

Les titres des papiers scientifiques sont souvent sibyllins.

Des essais réalisés dans le cadre de la sûreté nucléaire

CABRI est une installation de recherche sur les accidents de sûreté. L’équipe technique et scientifique qui la pilote dispose de données expérimentales mesurées lors d’essais, dont certains datent de 1978. C’est un réacteur-test spécialisé dans les excursions en réactivité. L’idée est de simuler un accident nucléaire, sur une durée très courte et dans un cadre totalement maîtrisé. Cet accident va endommager fortement les crayons de combustible, dont l’évolution est suivie à la loupe par un instrument bizarre : l’hodoscope. Bizarre, certes, mais aussi spécial et totalement unique. Les données acquises sont aussi uniques. Une expérience dure quelques secondes, mais sa préparation peut demander plusieurs semaines. La réalisation d’une expérience (un essai) est, somme toute, assez peu pratique et remarquablement complexe.

Classification de cartes de chaleur

L'expérimentateur se retrouve avec environ 70 essais, tous uniques. Il doit les analyser et comprendre ce qu’il s’est passé. La première question qu’il se pose, c’est de savoir si le combustible s’est brisé. Pour ce faire, il dispose de cartes bidimensionnelles, relativement bruitées. L’idée est de pouvoir décider s’il y a une rupture du combustible à partir de ces cartes. A l’œil, c’est peu évident.

L’ordinateur va nous aider : il voit mieux que nous, et il sait détecter les petits signaux entremêlés. Notre démarche a été de construire un algorithme capable d’apprendre à détecter ces signaux difficilement visibles et de les utiliser pour décider si, oui ou non, il y a eu rupture. Nous avons fait appel à de l’apprentissage supervisé et à une technique de boostrap aggregation (bagging). Les performances sont honnêtes, >80%.

Des statistiques adaptées à de petits jeux de données

L’intérêt de cette étude réside dans la taille de la base de données : 70 essais, c’est faible. C’est même limite : on est dans du small data, par opposition au big data. Comment a-t-on réussi à raconter quelque chose d’utile, avec si peu de données ? En faisant quelque chose de très simple qui s’est révélé très efficace : nous avons travaillé avec les spécialistes de ces essais pour extraire des indicateurs numériques pertinents. Au lieu de balancer les données brutes à un algorithme classique, nous avons donc modélisé le problème, réfléchi avec nos cerveaux, écouté les experts du comportement du combustible sous irradiation, et construit ces indicateurs. Au fil des itérations, nous avons convergé vers une solution satisfaisante.

Nous remercions l’équipe de l’IRSN de nous avoir donné l’opportunité de travailler avec eux sur ce sujet.


Thomas