ARC-AGI : comment parler intelligemment d'intelligence ?
Nos programmes sont-ils intelligents ?
Oui, disent
Non, dit la science.
Moi moi moi, hurle
En deux mots
Contexte
Quelques sociétés annoncent l'arrivée imminente de programmes capables d'une intelligence générale de niveau humain (AGI), voire sur-humain.
On s'en fout ?
Non. Une telle technologie aurait de forts impacts sur l'ensemble de l'économie
et sur la recherche scientifique. C'est pour cette raison que les financiers
adorent écouter
À mon avis
Évaluer l'intelligence des programmes est notoirement difficile. Si le benchmark
S'ennuyer
Parler encore et toujours d'intelligence artificielle m'ennuie. Ce n'est visiblement pas le cas de l'ex prof' de philo qui a remis une pièce dans la machine récemment. Je lui ai volé son titre d'ailleurs.
À mes yeux, la messe est dite depuis longtemps : l'apprentissage automatique et
la génération n'ont pas permis de créer des programmes intelligents au sens
classique du terme. Mais il fallait bien que je parle un jour du benchmark
Je reprends ici une partie de l'analyse de Melanie Mitchell. Les lecteurs anglophones pourront aussi lire Gary Marcus.
Mesurer
Poser un cadre.
Définir un sujet commun.
Discuter.
C'est le but des benchmarks. On rassemble un certain nombre de cas, on fixe les conditions, on mesure les performances puis on les compare. On finit inévitablement par s'engueuler, mais on le fait dans un cadre commun.
Les benchmarks sont souvent utilisés en informatique pour comparer les performances des langages de programmation ou les moteurs de bases de données. On lance un chronomètre, on mesure l'empreinte mémoire et le plus méritant gagne. La mauvaise foi, si elle n'est pas indispensable, pimente les discussions.
Pour l'intelligence, c'est plus compliqué. Il faut déjà définir ce que c'est, oublier Trump cinq minutes, trouver une mesure pratique, etc. Pas facile.
Être sioux
Je ne pense pas que les gens apprécient vraiment la simplicité de ARC-AGI et la signification réelle de sa résolution. Il a été conçu comme l'évaluation la plus simple et la plus élémentaire possible de l'intelligence fluide. Un échec signifie une incapacité quasi-totale à s'adapter ou à résoudre des problèmes dans des situations non familières. Le résoudre signifie que votre système fait preuve d'une intelligence fluide non nulle - vous avez enfin affaire à quelque chose qui n'est pas une pure compétence mémorisée. Mais cela ne dit pas grand-chose sur l'intelligence de votre système, ni sur sa proximité avec l'intelligence humaine. François Chollet X
[ARC-AGI] ne dit pas grand-chose sur l'intelligence de votre système, ni sur sa proximité avec l'intelligence humaine. François Chollet, ibid.
Toutefois, il est important de noter que ARC-AGI n'est pas une épreuve de vérité pour une IA générale (AGI) - comme nous l'avons répété des dizaines de fois cette année. Il s'agit d'un outil de recherche conçu pour attirer l'attention sur les problèmes non résolus les plus difficiles de l'IA, rôle qu'il a bien rempli au cours des cinq dernières années. OpenAI o3 Breakthrough High Score on ARC-AGI-Pub, Arcprize
De l'aveu même de son créateur,
Un programme qui s'attaque à
Mikhail Bongard
Moment histoire. Ce benchmark semble ne pas être lié aux classiques problèmes de
La capacité à résoudre les problèmes de Bongard est très proche du cœur de l'intelligence « pure », s'il en existe une. Douglas Hofstadter (1999)
Certaines équipes ont soumis ces problèmes à des LLM, cf pdf et la liste de références. Les programmes ne s'en sortent pas, leurs performances stagnent entre 10 et 20%.
Rêver (laissez-nous)
Construire un programme capable de résoudre
La formulation d'un problème est souvent plus importante que sa résolution, qui peut n'être qu'une question d'habileté mathématique ou expérimentale. Albert Einstein & Leopold Infeld (1938)
Comme souvent en mathématiques, les problèmes compliqués sont intéressants car ils donnent l'occasion de penser de nouveaux concepts ou d'imaginer de nouvelles théories. Les conjectures sont précieuses car elles conduisent souvent à l'élaboration de nouvelles théories. Je suis certain que des mathématiciens comme Erdős ou Grothendieck l'ont mieux dit, mais je n'ai pas trouvé de citations exactes.
On s'attend naïvement qu'un programme capable de résoudre
L'idéal serait de savoir écrire un programme de résolution en suivant une approche symbolique (GOFAI) ou en construisant un système expert à partir d'une démarche explicite qui s'appuie sur des connaissances humaines. Mention spéciale si ce programme est capable de ne pas faire le goret sur sa consommation de ressources (puissance de calcul, mémoire). Dans le cas moins sympathique d'un programme basé sur l'apprentissage automatique, étudier son fonctionnement pourrait donner des informations sur la stratégie suivie.
Laissez-nous rêver.
to brute force
Les stratégies actuelles de résolution de
Schématiquement, un programme principal est entraîné pour générer de nombreux
programmes solutions, puis un processus de sélection retient le programme
solution qui transforme la grille d'entrée en grille solution. Puis on
recommence pour le prochain problème. Les performances sur la première version
Résoudre ARC-AGI n'équivaut pas à atteindre l'AGI et, en fait, je ne pense pas que
OpenAI o3 soit déjà une AGI. o3 échoue encore à certaines tâches très faciles, ce qui indique des différences fondamentales avec l'intelligence humaine. OpenAI o3 Breakthrough High Score on ARC-AGI-Pub, ibid.
Je ne dirais pas que c'est un échec.
Je dirais que ça n'a pas marché.
Échouer
Ces programmes de résolution font appel à la force brute. On peut discuter du
qualificatif, de la pertinence de la stratégie d'augmentation de données
d'entrée ou des processus de génération de programmes candidats. Je retiens
comme critère que la consommation en ressources du programme solution proposé par
Ils ont tué ton problème, François.
Construire un système expert spécifiquement adapté pour cette classe limitée de
problèmes ne nous a rien appris, et nous apprendra probablement rien. Je peux bien sûr me
tromper, mais il y a fort à parier que ce système conçu pour attaquer
Comme d'habitude avec le deep learning, les programmes fonctionnent mais on ne sait pas bien comment et on galère ensuite à en tirer quelque chose d'utile. Ce n'est pas du tout satisfaisant.
Loi de Goodhart
Quand une mesure devient un but à atteindre, elle cesse d'être une bonne mesure. Loi de Goodhart
Cette loi est très générale.
Résoudre
Vous me répondrez qu'il n'est pas nécessaire de reproduire l'intelligence
humaine ou animale. Certes. Mais qu'a-t-on appris d'utile sur la résolution de
Absurde
La stratégie suivie depuis bientôt dix ans consiste à assembler des systèmes qui disposent d'une énorme puissance de calcul, à les gaver de données, à modéliser une fonction de coût compliquée puis à lancer des algorithmes d'optimisation numérique. L'équipe d'ingénieurs se rassemble ensuite autour de l'écran, allume des cierges, mange des pizzas et prie les dieux de la Silicon Valley en espérant qu'une sorte d'intelligence apparaisse spontanément. Eux, ils parlent d'émergence.
Je ne suis visiblement pas le seul à trouver totalement absurde que des personnes supposées très intelligentes se comportent ainsi et appellent ça de la recherche. Comme s'il était possible de s'affranchir de ce si difficile travail de conceptualisation. Comme s'il était possible de ne pas réfléchir.
I’ve started using ChatGPT as an extension of my own mind — anyone else? Beaucoup trop de monde
Absurde
Concluons avec les mots du créateur de
Les résultats du modèle "o3" d'OpenAI […] indiquent que ARC-AGI-1, s'il reste un défi, approche de ses limites […] si on utilise de très grandes quantités de puissance de calcul. […] Il est important de constater que les approches employées par les meilleurs programmes de résolution pouvaient relever de la recherche par force brute […], des méthodes de recherche exhaustive qui ne mobilisent pas le type de capacités de raisonnement abstrait efficaces que nous considérons comme essentielles à l'AGI. ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems arXiv
Espérons que
Nous ne sommes toujours pas des machines. Nos textes sont pensés et écrits par des humains. Aucun texte n’est généré. Tout soutien sera le bienvenu.