ARC-AGI : comment parler intelligemment d'intelligence ?

18/07/2025

Nos programmes sont-ils intelligents ?
Oui, disent OpenAI, Anthropic et Elon Musk.
Non, dit la science.
Moi moi moi, hurle Donald Tump.

En deux mots

Contexte

Quelques sociétés annoncent l'arrivée imminente de programmes capables d'une intelligence générale de niveau humain (AGI), voire sur-humain.

On s'en fout ?

Non. Une telle technologie aurait de forts impacts sur l'ensemble de l'économie et sur la recherche scientifique. C'est pour cette raison que les financiers adorent écouter OpenAI, Google, Anthropic, Mistral, etc. Mais à déclarations extraordinaires, preuves extraordinaires.

À mon avis

Évaluer l'intelligence des programmes est notoirement difficile. Si le benchmark ARC-AGI est utile pour évaluer une forme d'intelligence, sa résolution n'implique pas que l'AGI est en vue. Les déclarations récentes de OpenAI sont donc exagérées, car leur programme de résolution (partielle) fait principalement appel à la force brute, sans rien proposer de nouveau concernant la modélisation de l'intelligence.

S'ennuyer

Parler encore et toujours d'intelligence artificielle m'ennuie. Ce n'est visiblement pas le cas de l'ex prof' de philo qui a remis une pièce dans la machine récemment. Je lui ai volé son titre d'ailleurs.

À mes yeux, la messe est dite depuis longtemps : l'apprentissage automatique et la génération n'ont pas permis de créer des programmes intelligents au sens classique du terme. Mais il fallait bien que je parle un jour du benchmark ARC AGI ; la météo de la Baule, astucieusement humide, m'a offert l'occasion de m'y coller.

Je reprends ici une partie de l'analyse de Melanie Mitchell. Les lecteurs anglophones pourront aussi lire Gary Marcus.

Mesurer

Poser un cadre.
Définir un sujet commun.
Discuter.

C'est le but des benchmarks. On rassemble un certain nombre de cas, on fixe les conditions, on mesure les performances puis on les compare. On finit inévitablement par s'engueuler, mais on le fait dans un cadre commun.

Les benchmarks sont souvent utilisés en informatique pour comparer les performances des langages de programmation ou les moteurs de bases de données. On lance un chronomètre, on mesure l'empreinte mémoire et le plus méritant gagne. La mauvaise foi, si elle n'est pas indispensable, pimente les discussions.

Pour l'intelligence, c'est plus compliqué. Il faut déjà définir ce que c'est, oublier Trump cinq minutes, trouver une mesure pratique, etc. Pas facile.

Être sioux

Je ne pense pas que les gens apprécient vraiment la simplicité de ARC-AGI et la signification réelle de sa résolution. Il a été conçu comme l'évaluation la plus simple et la plus élémentaire possible de l'intelligence fluide. Un échec signifie une incapacité quasi-totale à s'adapter ou à résoudre des problèmes dans des situations non familières. Le résoudre signifie que votre système fait preuve d'une intelligence fluide non nulle - vous avez enfin affaire à quelque chose qui n'est pas une pure compétence mémorisée. Mais cela ne dit pas grand-chose sur l'intelligence de votre système, ni sur sa proximité avec l'intelligence humaine. François Chollet X

ARC-AGI signifie Abstraction and Reasoning Corpus for Artificial General Intelligence. Ce benchmark propose d'évaluer la capacité d'un programme à résoudre des petits problèmes de reconnaissance visuelle et de logique. Certains de ces problèmes sont présentés dans le papier de François Chollet publié en 2019 et sur le site arcprize. Ce benchmark est généralement considéré comme utile. L'initiative est intéressante.

[ARC-AGI] ne dit pas grand-chose sur l'intelligence de votre système, ni sur sa proximité avec l'intelligence humaine. François Chollet, ibid.

Toutefois, il est important de noter que ARC-AGI n'est pas une épreuve de vérité pour une IA générale (AGI) - comme nous l'avons répété des dizaines de fois cette année. Il s'agit d'un outil de recherche conçu pour attirer l'attention sur les problèmes non résolus les plus difficiles de l'IA, rôle qu'il a bien rempli au cours des cinq dernières années. OpenAI o3 Breakthrough High Score on ARC-AGI-Pub, Arcprize

De l'aveu même de son créateur, ARC-AGI n'a en réalité que peu de lien avec l'AGI, Artificial General Intelligence. Mais ça excite le chaland, alors on excuse presque le choix du nom.

Un programme qui s'attaque à ARC-AGI doit résoudre une centaine de problèmes différents. Chaque problème consiste à identifier une transformation appliquée à une grille colorée de taille typique 10x10 (max: 30x30), après observation de quelques (<5) exemples de l'application de cette transformation. Le programme doit ensuite appliquer cette transformation à une grille donnée et fournir une grille résultat. Le problème est résolu si la grille résultat correspond à la grille attendue. On calcule le score final en compilant les résultats sur chacun des 100 problèmes inclus dans le corpus d'évaluation.

Mikhail Bongard

Moment histoire. Ce benchmark semble ne pas être lié aux classiques problèmes de Bongard, inventés par l'informaticien russe dans les années 1960. Dommage. Je vous invite à découvrir ses travaux ici et, si le sujet vous intéresse, sur le site de Foundalis ou sur OEBP. Je les trouve passionnants, et je m'étonne qu'ils ne soient pas plus cités dans la littérature que je lis. Douglas Hofstadter les a mis à l'honneur dans son fameux Gödel, Escher, Bach.

La capacité à résoudre les problèmes de Bongard est très proche du cœur de l'intelligence « pure », s'il en existe une. Douglas Hofstadter (1999)

Certaines équipes ont soumis ces problèmes à des LLM, cf pdf et la liste de références. Les programmes ne s'en sortent pas, leurs performances stagnent entre 10 et 20%.

Rêver (laissez-nous)

Construire un programme capable de résoudre ARC-AGI ne sert à rien. Ces problèmes sont faciles à résoudre si on est humain et patient. Un programme aura beaucoup plus de mal.

La formulation d'un problème est souvent plus importante que sa résolution, qui peut n'être qu'une question d'habileté mathématique ou expérimentale. Albert Einstein & Leopold Infeld (1938)

Comme souvent en mathématiques, les problèmes compliqués sont intéressants car ils donnent l'occasion de penser de nouveaux concepts ou d'imaginer de nouvelles théories. Les conjectures sont précieuses car elles conduisent souvent à l'élaboration de nouvelles théories. Je suis certain que des mathématiciens comme Erdős ou Grothendieck l'ont mieux dit, mais je n'ai pas trouvé de citations exactes.

On s'attend naïvement qu'un programme capable de résoudre ARC-AGI intègre des concepts et des connaissances de base, c'est-à-dire une forme de compréhension élémentaire des objets avec lesquels il travaille : formes, symétries, relations spatiales, limites, etc. Il devrait être capable de reconnaître les transformations élémentaires à appliquer puis de construire un raisonnement et proposer une solution. J'utilise des italiques pour signifier au lecteur attentif que ces mots, utilisés d'habitude pour des humains ou des êtres vivants, ne sont pas nécessairement adaptés pour des programmes. C'est faux mais plus pratique.

L'idéal serait de savoir écrire un programme de résolution en suivant une approche symbolique (GOFAI) ou en construisant un système expert à partir d'une démarche explicite qui s'appuie sur des connaissances humaines. Mention spéciale si ce programme est capable de ne pas faire le goret sur sa consommation de ressources (puissance de calcul, mémoire). Dans le cas moins sympathique d'un programme basé sur l'apprentissage automatique, étudier son fonctionnement pourrait donner des informations sur la stratégie suivie.

Laissez-nous rêver.

to brute force

Les stratégies actuelles de résolution de ARC-AGI s'appuient principalement sur l'écriture de courts programmes capables, chacun, de résoudre un unique problème.

Schématiquement, un programme principal est entraîné pour générer de nombreux programmes solutions, puis un processus de sélection retient le programme solution qui transforme la grille d'entrée en grille solution. Puis on recommence pour le prochain problème. Les performances sur la première version ARC-AGI tournaient autour de 20-30%, jusqu'à fin 2024, jusqu'à ce que OpenAI exhibe un programme basé sur o3 qui affiche des résultats impressionnants (75-85%). Le code n'est pas fourni, donc le doute subsiste sur la méthode employée. Connaissant les loulous, ils ont choisi la solution offensive typique du mec qui veut montrer qu'il a la plus grosse.

Résoudre ARC-AGI n'équivaut pas à atteindre l'AGI et, en fait, je ne pense pas que OpenAI o3 soit déjà une AGI. o3 échoue encore à certaines tâches très faciles, ce qui indique des différences fondamentales avec l'intelligence humaine. OpenAI o3 Breakthrough High Score on ARC-AGI-Pub, ibid.

Je ne dirais pas que c'est un échec.
Je dirais que ça n'a pas marché.

Échouer

Ces programmes de résolution font appel à la force brute. On peut discuter du qualificatif, de la pertinence de la stratégie d'augmentation de données d'entrée ou des processus de génération de programmes candidats. Je retiens comme critère que la consommation en ressources du programme solution proposé par OpenAI est impressionnante, avec un coût par tache entre $200 et $20000.

Ils ont tué ton problème, François.

Construire un système expert spécifiquement adapté pour cette classe limitée de problèmes ne nous a rien appris, et nous apprendra probablement rien. Je peux bien sûr me tromper, mais il y a fort à parier que ce système conçu pour attaquer ARC-AGI ne résoudra rien d'autre en dehors de cette classe limitée de problèmes. Où sont les concepts ? Où sont les progrès ? Où est l'intelligence ?

Comme d'habitude avec le deep learning, les programmes fonctionnent mais on ne sait pas bien comment et on galère ensuite à en tirer quelque chose d'utile. Ce n'est pas du tout satisfaisant.

Loi de Goodhart

Quand une mesure devient un but à atteindre, elle cesse d'être une bonne mesure. Loi de Goodhart

Cette loi est très générale.

Résoudre ARC-AGI par la force brute, ce n'était pas du tout ce qui était recherché. Un humain (ou être vivant) n'applique pas ce type d'approche. Un bébé va essayer 10x de faire rentrer ce satané rond dans le trou triangle, mais 1 il ne fera pas un million d'essais et 2 il aura appris à tout jamais que les trucs ronds vont dans les trous ronds. Il déduira que cette stratégie fonctionne probablement aussi pour les trucs ovales, triangulaires, carrés, patatoïdes. Conceptualiser - c'est précisément ce que les chercheurs en IA essaient de faire depuis 70 ans. C'est précisément ce que les programmes actuels ne savent pas faire.

Vous me répondrez qu'il n'est pas nécessaire de reproduire l'intelligence humaine ou animale. Certes. Mais qu'a-t-on appris d'utile sur la résolution de ARC-AGI qu'on puisse réutiliser sur d'autres problèmes généraux ? Je pose la question sans avoir de réponse.

Absurde

La stratégie suivie depuis bientôt dix ans consiste à assembler des systèmes qui disposent d'une énorme puissance de calcul, à les gaver de données, à modéliser une fonction de coût compliquée puis à lancer des algorithmes d'optimisation numérique. L'équipe d'ingénieurs se rassemble ensuite autour de l'écran, allume des cierges, mange des pizzas et prie les dieux de la Silicon Valley en espérant qu'une sorte d'intelligence apparaisse spontanément. Eux, ils parlent d'émergence.

Je ne suis visiblement pas le seul à trouver totalement absurde que des personnes supposées très intelligentes se comportent ainsi et appellent ça de la recherche. Comme s'il était possible de s'affranchir de ce si difficile travail de conceptualisation. Comme s'il était possible de ne pas réfléchir.

I’ve started using ChatGPT as an extension of my own mind — anyone else? Beaucoup trop de monde

Absurde

Concluons avec les mots du créateur de ARC-AGI (traduction libre):

Les résultats du modèle "o3" d'OpenAI […] indiquent que ARC-AGI-1, s'il reste un défi, approche de ses limites […] si on utilise de très grandes quantités de puissance de calcul. […] Il est important de constater que les approches employées par les meilleurs programmes de résolution pouvaient relever de la recherche par force brute […], des méthodes de recherche exhaustive qui ne mobilisent pas le type de capacités de raisonnement abstrait efficaces que nous considérons comme essentielles à l'AGI. ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems arXiv

Espérons que ARC-AGI-2 sera scientifiquement plus utile.

Thomas

Nous ne sommes toujours pas des machines. Nos textes sont pensés et écrits par des humains. Aucun texte n’est généré. Tout soutien sera le bienvenu.