Irruption

S'il est difficile de construire des systèmes IA spécialisés qui sont très performants, il est beaucoup plus difficile de construire un système d’IA généraliste. Margaret Boden (2016)

Le cas Agent57

En 2020, DeepMind publie Agent57, un agent qui surpasse les performances humaines sur 57 jeux disponibles sur Atari 2600. Cet agent prolonge et étend les performances obtenues en 2015. Certains commencent à s'exciter autour d'une forme d'IA générale.

[Ce programme] Atari a suscité l'enthousiasme - et mérité un papier dans Nature - en partie parce qu'il semblait être un pas vers l'intelligence artificielle générale. Un unique algorithme, n'utilisant pas une représentation spéciale de la connaissance, a développé un large éventail de compétences sur des tâches très variées, avec des données d'entrées en grande dimension. Aucun programme n'avait fait cela auparavant. Cependant, une IA générale complète ferait beaucoup plus. Margaret Boden (2016)

Croire que les réseaux de neurones pourront créer une IA générale n'est appuyé par aucun fait. Si l'augmentation de la puissance des ordinateurs actuelle permet aux programmes d'inclure beaucoup plus de neurones qu’auparavant, le constat ne change pas : la forme d'intelligence exhibée par les programmes reste différente de l'intelligence animale ou humaine.

Par rapport au cerveau, les réseaux de neurones artificiels sont trop propres, trop simples, trop limités et trop secs.
Trop propres, parce que les réseaux construits par l'homme privilégient élégance et puissance mathématiques, ce qu'on ne retrouve pas dans les cerveaux biologiques.
Trop simples, parce qu'un seul neurone est aussi complexe sur le plan informatique [...] qu'un petit ordinateur. Et il existe une trentaine de types de neurones différents.
Trop limités, car même les réseaux comportant des millions de neurones sont minuscules comparés aux cerveaux humains.
Et trop sec, parce que les chercheurs ignorent généralement [beaucoup de comportements biologiques]. Margaret Boden (2016)

Une ode au pragmatisme

Les réseaux de neurones ne sont pas parfaits. Ils sont opaques, spécialisés et gourmands.

Les réseaux de neurones sont opaques. L’extrême complexité de l’architecture des systèmes IA construits par DeepMind, Meta, Google et d’autres, est un obstacle majeur à la compréhension des processus d’apprentissage. On empile des réseaux de neurones différents, chacun composé de multiples couches interconnectées (ou pas). Les architectures actuelles des agents conversationnels basés sur GPT-3 comptent jusqu’à 175 milliards de paramètres - probablement plus de mille milliards pour GPT-4. On ne sait pas comment est encodée l’information dans ces outils. On ne sait pas comment les résultats sont calculés. On ne sait pas entrer dans la boîte noire qu’on entraîne, ou plutôt la base de données qu’on engendre. Cela n'empêche pas les ingénieurs de travailler en aveugle, à partir d’exemples, et de construire des systèmes en empilant des légos dans le noir. Dans ce monde, seules les performances comptent, semble-t-il.

Les réseaux de neurones sont spécialisés. On parle d’IA étroite, en opposition avec l’IA générale. Un système construit par apprentissage automatique sait généralement effectuer une seule tâche. S’il sait jouer à Pacman, il ne saura pas jouer à Pong. S’il sait catégoriser des images d’animaux, il ne saura rien dire d’utile des voitures. Il faudra, dans le meilleur cas, ré-entraîner le système. Dans le pire des cas, on construira un nouveau système avec des traitements spécifiques. On apprécie mieux la puissance de AlphaZero, qui peut apprendre différents jeux sans être modifié. Mais même s'il maîtrise 1000 jeux, rien n'indique qu'il sera bon sur le mille et unième. Les réseaux de neurones profonds sont des outils particulièrement fragiles. Voire jetables

Les réseaux de neurones sont gourmands. Gourmands en données, car les jeux de données d'entraînement nécessaires sont énormes, avec des millions d’exemples. La constitution de ces bases implique fréquemment un travail humain d’étiquetage fastidieux et abrutissant. Gourmands en énergie, car la puissance de calcul requise pour évaluer les milliards de paramètres lors du processus d’apprentissage est très importante. Cette puissance de calcul est fournie par des processeurs spécialisés (graphics processing unit, tensor processing unit), rares et coûteux. On parle de 190 MWh pour entraîner le modèle GPT-3 (large language model), soit un aller-retour pour la Lune en voiture. La question de la consommation énergétique doit être posée, en regard de l'utilité.

Et les autres algorithmes ?

Ces caractéristiques ne sont pas propres aux réseaux de neurones. Elles peuvent s’appliquer à d’autres algorithmes d’apprentissage automatique. La spécialisation est commune. L’opacité est fréquente. Comprendre le processus de décision dans un arbre de décision est possible, mais rien ne garantit que les règles fassent sens pour un non spécialiste. Certains algorithmes (dits frugaux) ont des approches qui minimisent le nombre de paramètres utilisés en entrée, permettant ainsi de réduire le nombre de variables explicatives. La gourmandise énergétique n’est pas une fatalité en soi. Elle est souvent liée à la quantité de données à intégrer. Il existe des méthodes qui peuvent fournir des résultats utiles à partir de petites bases d'entraînement.

Notons que depuis le début de la bulle deep , les autres algorithmes d’apprentissage automatique sont tout à fait absents de la scène médiatique. La bibliothèque scientifique scikit-learn est pourtant remarquable, et très utilisée en pratique.

La plupart des chercheurs en IA ont abandonné l'espoir initial de l'intelligence artificielle générale, se tournant plutôt vers la résolution de tâches très spécialisées, souvent avec un succès spectaculaire. Margaret Boden (2016)

ChatGPT fait irruption

Le choc provoqué fin 2022 par le programme ChatGPT d'OpenAI est extraordinaire. Ce hapax technologique a bousculé l'intégralité de l'innovation numérique et les usages de l'intelligence artificielle. Les financements ont ruisselé comme rarement vers des clones plus ou moins avoués de OpenAI.

L'IA générative, l'approche actuelle la plus populaire de l'IA, est faite de grands modèles de langage (LLM) qui sont entraînés à produire des résultats plausibles, mais pas nécessairement corrects. Bien que leurs capacités soient souvent surprenantes, ils échouent à raisonner, ce qui fait que les LLM ne sont pas totalement dignes de confiance. En outre, leurs résultats ont tendance à être à la fois imprévisibles et ininterprétables. Douglas Lenat & Gary Marcus (2023)

Les LLM d'aujourd'hui sont clairement beaucoup moins fragiles que les réseaux neuronaux [...], mais ils présentent toujours une fragilité, peut-être en raison d'une dépendance similaire à l'égard des sacs d'heuristiques, bien qu'à une échelle beaucoup plus grande. Melanie Mitchell (2025)

Les humains utilisent probablement aussi un mélange de modèles abstraits du monde et de sacs d'heuristiques pour résoudre leurs problèmes, mais je pense qu'il est probable qu'ils n'aient pas la même capacité que les LLM d'aujourd'hui à apprendre un très grand nombre de règles spécifiques. Je suppose que ce sont nos limites humaines - contraintes sur la mémoire de travail, sur la vitesse de traitement, sur l'énergie disponible - ainsi que nos environnements complexes et en constante évolution qui nous obligent à former des modèles internes plus abstraits et généralisables. Peut-être devrons-nous contraindre et défier nos machines de la même manière pour les amener à penser de manière plus abstraite et à mieux généraliser en dehors de leurs distributions de données d'apprentissage. Melanie Mitchell (2025)

L'économie bascule

La décennie 2010-2020 voit les acteurs économiques entrer dans une transformation profonde de leurs usages numériques. L’envergure de cette transformation rappelle l’utilisation massive des outils numériques, initiée dans les années 1960-1970. A l’époque, l’introduction des mini-ordinateurs donne accès à une puissance de calcul et une capacité de traitement à des coûts plus abordables que les mainframes IBM.

Ces deux sujets sont une conséquence directe de l’ouverture du web pour le grand public et de la massification des usages, commencé dans les années 2000. Les survivants de la bulle internet (dot.com) sont devenus les nouveaux acteurs dominants.

Si vous aviez toutes les informations du monde directement reliées à votre cerveau, ou si vous aviez un cerveau artificiel plus intelligent que le vôtre, alors vous seriez bien. Sergey Brin (2004)

Nous ne scannons pas tous ces livres pour qu'ils soient lus par des personnes, nous les scannons pour qu'ils soient lus par une IA. Un googler anonyme (2005)

L'un de nos principaux objectifs en matière de recherche d'information (search), c'est de faire en sorte que cette fonction search comprenne exactement ce que vous voulez, qu'elle comprenne tout ce qui existe dans le monde. En informatique, on appelle ça de l'intelligence artificielle. Larry Page (2005)

La transformation actuelle concerne l'utilisation systématique des outils décentralisés (SaaS), qui n’est pas sans rappeler l’architecture client/serveur du début de l’informatique d’entreprise, et l’exploitation massive des données opérationnelles. Google (Alphabet), Facebook (Meta), Amazon en sont les symboles. Microsoft, IBM et Apple se sont réinventés. "À chaque fois que je parle de l'avenir de Google avec Larry Page, il soutient que sa société deviendra une intelligence artificielle", témoigne un investisseur en 2005.

La Chine a elle aussi créé ses propres géants. Leur point commun ? Un modèle économique basé sur la manipulation de symboles et l’utilisation massive et systématique des décisions algorithmiques. Leur forte rentabilité vient d’une position commerciale hégémonique. Leur image de marque très flatteuse comme principaux acteurs de l’innovation informatique, et maintenant en intelligence artificielle, finalise le tableau. Les BigTechs sont des modèles.

Les États-Unis d'Amérique sont à la pointe de l'IA, et notre administration [Trump] entend bien le rester. James Vance (2025)

précédent | suivant