Les réseaux de neurones

Les réseaux de neurones ont fait beaucoup de bruit [dans les années 1960 et] au milieu des années 1980 et sont encore régulièrement salués par les médias. L'engouement récent pour ces réseaux concerne l'apprentissage profond. Margaret Boden (2016)

Aparté

Les réseaux de neurones sont une des plus anciennes méthodes d'apprentissage automatique. Ils font partie du programme proposé par John McCarthy lors de l'école d'été de Dartmouth en 1956.

L'histoire de l'intelligence artificielle n'est pas linéaire ; celle des réseaux de neurones ne l'est pas non plus. Elle a ses hivers spécifiques. A la fin du XXème siècle, de nombreux spécialistes ne tenaient pas ce domaine en haute estime. Essayons d'en donner un aperçu.

Un modèle simpliste et efficace

Ces réseaux de neurones s’appuient sur une modélisation mathématique qui remonte aux années 1940 (McCulloch & Pitts). L’idée des chercheurs consiste à connecter des neurones artificiels très simplifiés pour concevoir un programme informatique. La structure artificielle ainsi créée pourrait favoriser l’émergence de fonctions d’apprentissage et de mémorisation, par analogie avec le fonctionnement d’un cerveau animal. Cette approche est datée, probablement fausse, mais utile.

La modélisation est simple. Les neurones biologiques sont des cellules qui peuvent communiquer entre elles à l'aide de connexions synaptiques. Un neurone reçoit des signaux électrochimiques et, selon l’importance relative des signaux reçus, va engendrer un signal de sortie qui sera à son tour reçu par d'autres neurones. L'intelligence des réseaux de neurones artificiels, si on peut utiliser ce terme, réside dans le processus de pondération des signaux d'entrée et la structure du réseau. Concernant les neurones biologiques, la pondération des poids des nombreuses connexions synaptiques n'est qu'un élément parmi d'autres, dont certains sont certainement encore inconnus.

Les réseaux de neurones artificiels sont constitués de nombreuses unités interconnectées, chacune d'entre elles étant capable de calculer une seule chose. Décrits de cette manière, ils peuvent sembler ennuyeux. Mais ils peuvent sembler presque magiques. Ils ont en tout cas ensorcelé les journalistes. Ils ont appris à reconnaître des lettres sans qu'on leur ait explicitement appris à le faire et ont été présentés avec enthousiasme dans les journaux des années 1960. Margaret Boden (2016)

Dans les systèmes nerveux des animaux, les réseaux de neurones sont massivement interconnectés : le cerveau humain est composé d'environ cent milliards de neurones, et les neurones du cerveau humain ont généralement des milliers de connexions. Les réseaux de neurones observés dans la nature sont organisés selon des schémas (extrêmement) complexes. Pour des raisons pratiques, les réseaux de neurones artificiels sont généralement organisés en couches, avec des schémas de connexion plus ou moins complexes. Les poids associés à chaque connexion sont cruciaux pour le fonctionnement d'un réseau de neurones. Il n'est pas utile de rentrer dans la cuisine interne.

L'entraînement d’un réseau de neurones consiste donc à trouver, d'une manière ou d'une autre, des poids numériques appropriés. L'approche habituelle consiste à ajuster le poids après chaque épisode d'entraînement, avec une descente de gradient par exemple, en essayant de faire en sorte que le réseau relie correctement les entrées aux sorties.

Perceptrons

La Navy a dévoilé aujourd'hui l'embryon d'un ordinateur électronique qui pourra marcher, parler, voir, écrire, se reproduire et être conscient de son existence [...] Dans le futur, on s’attend à ce qu’ils puissent reconnaître les gens et les appeler par leur nom, et traduire instantanément d’une langue à l’autre [...]. Dr Rosenblatt précise qu’il ne manque plus qu'une étape de développement, difficile. New York Times (1958)

Le Perceptron de Rosenblatt est lancé en 1957 et en fanfare. C'est le premier programme connu du public implémentant un algorithme d'apprentissage automatique basé sur les réseaux de neurones. Perceptron est exécuté sur un IBM 704, un ordinateur central (mainframe) d’une valeur de deux millions de dollars. Suivront d’autres implémentations physiques.

Minsky & Papert

Le Perceptron de Rosenblatt est un réseau à une couche. À l'époque, personne ne sait entraîner un réseau à couches multiples : il s'agit d'une possibilité théorique plutôt que d'une réalité opérationnelle. À la fin des années 1960, Marvin Minsky et Seymour Papert montrent que cette structure monocouche est basique et présente des limites fondamentales (Perceptrons: An Introduction to Computational Geometry, 1969). Différentes versions du livre circulent. Les critiques sont dures, nous en donnons un aperçu.

À la fin des années 1950, après les travaux de Rosenblatt, il y a eu une grande vague d'activités de recherche sur les réseaux neuronaux. Il y avait peut-être des milliers de projets au début des années 1960. Par exemple, le Stanford Research Institute avait un projet ambitieux. Mais rien de probant ne s'est produit. Les machines étaient très limitées. Donc je dirais qu'en 1965 les gens commençaient à s'inquiéter. Ils essayaient d'obtenir de l’argent pour construire des machines plus grandes, mais cela ne semblait mener nulle part. C’est alors que [Seymour] Papert et moi avons essayé d'élaborer la théorie de ce qui était possible pour les machines sans boucles [perceptrons à anticipation]. Marvin Minsky (1989)
Prix Turing 1969

Il nous semble que l'effet de Perceptrons n'a pas été simplement d'interrompre une saine ligne de recherche. Cette réorientation des préoccupations n'était pas une diversion arbitraire ; c'était un interlude nécessaire. Pour continuer à progresser, les connexionnistes devaient prendre un temps d'arrêt et développer des idées adéquates sur la représentation des connaissances. Il y avait une certaine hostilité dans notre motivation à travailler sur cet ouvrage [...]. Une partie de notre motivation venait, comme nous l'avons reconnu de manière très claire dans notre livre, du fait que les financements et l'énergie de la recherche étaient dissipés sur [...] des tentatives trompeuses d'utiliser les méthodes connexionnistes dans des applications pratiques. Marvin Minsky & Seymour Papert (1988)

Comment les scientifiques concernés ont-ils réagi ? La version populaire est que la publication de notre livre a tellement découragé la recherche sur l'apprentissage dans les réseaux de neurones qu'une ligne de recherche prometteuse a été interrompue. Notre version est que les progrès s’étaient déjà virtuellement arrêtés en raison du manque d’une théorie de base adéquate, et que les leçons de ce livre ont donné au domaine [l'IA en général], un nouvel élan, en réorientant un peu paradoxalement ses préoccupations immédiates. Marvin Minsky & Seymour Papert (1988)

En effet, Minsky a admis plus tard que "en toute modestie, nous avons été excessivement influents" en dissuadant les scientifiques travaillant sur GOFAI (good old fashion AI) de travailler sur l'apprentissage [sic]. Margaret Boden (2016)

Un coup d’arrêt brutal

La recherche sur les réseaux neuronaux a fortement diminué à la fin des années 1960 au profit des approches de l'IA symbolique défendues par McCarthy, Minsky, Newell et Simon. Il faudra attendre deux décennies, et des avancées techniques et scientifiques significatives, pour que l’entraînement de réseaux multicouches soit possible. La discipline ne s’en remettra pas avant la bulle deep actuelle. On parle volontiers d’âge noir du connexionisme.

Les critiques de Minsky et Papert sont vécues comme un assassinat scientifique de ce champ de recherche, ce qui n'a pas manqué d'énerver pas mal de gens. Nous renvoyons au chapitre Attack Without Apology (12.iii) du Mind as a Machine (2006) de Margareth Boden pour plus de détails, ainsi que A Sociological History of the Neural Network Controversy (1993) de Mikel Olazaran.

Ce que j'aimerais souligner ici, c'est que les principaux points des arguments de Minsky et Papert contre le perceptron étaient bien connus au milieu des années 1960, et que ces arguments avaient déjà eu un effet critique sur la recherche sur les réseaux neuronaux. Mikel Olazaran (1993)

précédent | suivant