Irruption
S'il est difficile de construire des systèmes IA spécialisés qui sont très performants, il est beaucoup plus difficile de construire un système d’IA généraliste. Margaret Boden (2016)
Le cas Agent57
En 2020,
[Ce programme] Atari a suscité l'enthousiasme - et mérité un papier dans Nature - en partie parce qu'il semblait être un pas vers l'intelligence artificielle générale. Un unique algorithme, n'utilisant pas une représentation spéciale de la connaissance, a développé un large éventail de compétences sur des tâches très variées, avec des données d'entrées en grande dimension. Aucun programme n'avait fait cela auparavant. Cependant, une IA générale complète ferait beaucoup plus. Margaret Boden (2016)
Croire que les réseaux de neurones pourront créer une IA générale n'est appuyé par aucun fait. Si l'augmentation de la puissance des ordinateurs actuelle permet aux programmes d'inclure beaucoup plus de neurones qu’auparavant, le constat ne change pas : la forme d'intelligence exhibée par les programmes reste différente de l'intelligence animale ou humaine.
Par rapport au cerveau, les réseaux de neurones artificiels sont trop propres, trop simples, trop limités et trop secs.
Trop propres, parce que les réseaux construits par l'homme privilégient élégance et puissance mathématiques, ce qu'on ne retrouve pas dans les cerveaux biologiques.
Trop simples, parce qu'un seul neurone est aussi complexe sur le plan informatique [...] qu'un petit ordinateur. Et il existe une trentaine de types de neurones différents.
Trop limités, car même les réseaux comportant des millions de neurones sont minuscules comparés aux cerveaux humains.
Et trop sec, parce que les chercheurs ignorent généralement [beaucoup de comportements biologiques]. Margaret Boden (2016)
Une ode au pragmatisme
Les réseaux de neurones ne sont pas parfaits. Ils sont opaques, spécialisés et gourmands.
Les réseaux de neurones sont opaques. L’extrême complexité de l’architecture des
systèmes IA construits par
Les réseaux de neurones sont spécialisés. On parle d’IA étroite, en opposition
avec l’IA générale. Un système construit par apprentissage automatique sait
généralement effectuer une seule tâche. S’il sait jouer à
Les réseaux de neurones sont gourmands. Gourmands en données, car les jeux de
données d'entraînement nécessaires sont énormes, avec des millions
d’exemples. La constitution de ces bases implique fréquemment un travail humain
d’étiquetage fastidieux et abrutissant. Gourmands en énergie, car la puissance
de calcul requise pour évaluer les milliards de paramètres lors du processus
d’apprentissage est très importante. Cette puissance de calcul est fournie par
des processeurs spécialisés (graphics processing unit, tensor
processing unit), rares et coûteux. On parle de 190 MWh pour entraîner le
modèle
Et les autres algorithmes ?
Ces caractéristiques ne sont pas propres aux réseaux de neurones. Elles peuvent s’appliquer à d’autres algorithmes d’apprentissage automatique. La spécialisation est commune. L’opacité est fréquente. Comprendre le processus de décision dans un arbre de décision est possible, mais rien ne garantit que les règles fassent sens pour un non spécialiste. Certains algorithmes (dits frugaux) ont des approches qui minimisent le nombre de paramètres utilisés en entrée, permettant ainsi de réduire le nombre de variables explicatives. La gourmandise énergétique n’est pas une fatalité en soi. Elle est souvent liée à la quantité de données à intégrer. Il existe des méthodes qui peuvent fournir des résultats utiles à partir de petites bases d'entraînement.
Notons que depuis le début de la bulle deep , les autres algorithmes
d’apprentissage automatique sont tout à fait absents de la scène médiatique. La
bibliothèque scientifique
La plupart des chercheurs en IA ont abandonné l'espoir initial de l'intelligence artificielle générale, se tournant plutôt vers la résolution de tâches très spécialisées, souvent avec un succès spectaculaire. Margaret Boden (2016)
ChatGPT fait irruption
Le choc provoqué fin 2022 par le programme
L'IA générative, l'approche actuelle la plus populaire de l'IA, est faite de grands modèles de langage (LLM) qui sont entraînés à produire des résultats plausibles, mais pas nécessairement corrects. Bien que leurs capacités soient souvent surprenantes, ils échouent à raisonner, ce qui fait que les LLM ne sont pas totalement dignes de confiance. En outre, leurs résultats ont tendance à être à la fois imprévisibles et ininterprétables. Douglas Lenat & Gary Marcus (2023)
Les LLM d'aujourd'hui sont clairement beaucoup moins fragiles que les réseaux neuronaux [...], mais ils présentent toujours une fragilité, peut-être en raison d'une dépendance similaire à l'égard des sacs d'heuristiques, bien qu'à une échelle beaucoup plus grande. Melanie Mitchell (2025)
Les humains utilisent probablement aussi un mélange de modèles abstraits du monde et de sacs d'heuristiques pour résoudre leurs problèmes, mais je pense qu'il est probable qu'ils n'aient pas la même capacité que les LLM d'aujourd'hui à apprendre un très grand nombre de règles spécifiques. Je suppose que ce sont nos limites humaines - contraintes sur la mémoire de travail, sur la vitesse de traitement, sur l'énergie disponible - ainsi que nos environnements complexes et en constante évolution qui nous obligent à former des modèles internes plus abstraits et généralisables. Peut-être devrons-nous contraindre et défier nos machines de la même manière pour les amener à penser de manière plus abstraite et à mieux généraliser en dehors de leurs distributions de données d'apprentissage. Melanie Mitchell (2025)
L'économie bascule
La décennie 2010-2020 voit les acteurs économiques entrer dans une
transformation profonde de leurs usages numériques. L’envergure de cette
transformation rappelle l’utilisation massive des outils numériques, initiée
dans les années 1960-1970. A l’époque, l’introduction des mini-ordinateurs donne
accès à une puissance de calcul et une capacité de traitement à des coûts plus
abordables que les mainframes
Ces deux sujets sont une conséquence directe de l’ouverture du web pour le grand public et de la massification des usages, commencé dans les années 2000. Les survivants de la bulle internet (dot.com) sont devenus les nouveaux acteurs dominants.
Si vous aviez toutes les informations du monde directement reliées à votre cerveau, ou si vous aviez un cerveau artificiel plus intelligent que le vôtre, alors vous seriez bien. Sergey Brin (2004)
Nous ne scannons pas tous ces livres pour qu'ils soient lus par des personnes, nous les scannons pour qu'ils soient lus par une IA. Un googler anonyme (2005)
L'un de nos principaux objectifs en matière de recherche d'information (search), c'est de faire en sorte que cette fonction search comprenne exactement ce que vous voulez, qu'elle comprenne tout ce qui existe dans le monde. En informatique, on appelle ça de l'intelligence artificielle. Larry Page (2005)
La transformation actuelle concerne l'utilisation systématique des outils
décentralisés (SaaS), qui n’est pas sans rappeler
l’architecture client/serveur du début de l’informatique d’entreprise, et
l’exploitation massive des données opérationnelles.
La Chine a elle aussi créé ses propres géants. Leur point commun ? Un modèle économique basé sur la manipulation de symboles et l’utilisation massive et systématique des décisions algorithmiques. Leur forte rentabilité vient d’une position commerciale hégémonique. Leur image de marque très flatteuse comme principaux acteurs de l’innovation informatique, et maintenant en intelligence artificielle, finalise le tableau. Les BigTechs sont des modèles.
Les États-Unis d'Amérique sont à la pointe de l'IA, et notre administration [Trump] entend bien le rester. James Vance (2025)