GPT-4 n'échoue pas totalement au test de Turing

Des auteurs ont testé différents programmes, dont le grand modèle de langage GPT-4, au test de Turing. Il s'agit d'une version proche du test historique établit en 1950 par Alan Turing lui-même. Sous certaines conditions, GPT-4 est capable de tromper un humain dans 41% des cas.

41%

« Les résultats présentés ici suggèrent que sous certaines conditions GPT-4 satisfait au critère de Turing, selon lequel le programme a été identifié [comme un humain] dans 30% des cas […]. » Jones & Bergen, 2023 (traduction libre)

GPT-4 obtient donc des performances qui indiquent qu'il satisfait au critère de Turing, selon une configuration certes un peu différente de celle proposée par le mathématicien anglais.

« Cependant, il n’est pas certain que ce seuil de 30% soit un critère approprié. Un critère plus approprié serait de 50%. Cela pourrait suggérer que les interrogateurs sont, en moyenne, incapables de distinguer le modèle d’un être humain. » Jones & Bergen, 2023 (traduction libre)

Cette remarque de bon sens tempère les résultats, et évite de céder au sensationnalisme.

Des détails sur le papier

Ce billet est une présentation du papier de Jones et Bergen (2023), disponible sur arXiv:2310.20216. Ce papier décrit la configuration d’un test de Turing simplifié et fournit un compte-rendu accessible et bien écrit des résultats, avec des figures claires et de nombreux détails. Je vous invite à le lire.

Attention, ce papier n’a pas forcément été validé par les pairs (peer-review). Il est pour l’instant déposé sur le serveur de pré-publication Arxiv.

Les grands modèles de langages

L’intelligence artificielle est décidément partout depuis 2016. Les grands modèles de langage (large language models, LLM) tels que GPT-4 de OpenAI semblent bien conçus pour pouvoir, peut-être, passer le test de Turing. Ces agents conversationnels sont en effet capables de mener des conversations fluides en langage naturel. Ils montrent des performances proches des performances humaines sur une variété de tâches basées sur le langage. Je renvoie aux références citées dans le papier.

L’usage massif de programmes capables de se faire passer pour des humains pourrait avoir des conséquences importantes pour le bon fonctionnement de nos sociétés. La situation est clairement problématique dans le cas des interactions en ligne. C’est un sujet social et politique important.

De nombreux commentateurs ont déjà largement spéculé sur le fait que GPT-4 réussirait un test de Turing, ou l'aurait déjà fait implicitement. Sans preuve. Cette question est abordée dans le papier Jones et Bergen (2023), où GPT-4 est comparé à des humains et à d'autres agents conversationnels lors d’un test de Turing en ligne.

Le test de Turing

Le mathématicien Alan Turing a conçu, en 1950, le jeu de l'imitation (imitation game) comme une façon de se demander si les machines pouvaient penser. Dans sa configuration originale, deux témoins discutent avec un interrogateur (humain). Un témoin est humain, l’autre est artificiel - un programme. Chacun des témoins tente de convaincre l’interrogateur qu’il est humain. Le jeu, pour l’interrogateur, est de décider qui est humain et qui est une machine. Pour ce faire, il peut poser des questions sur n'importe quel sujet. Le test de Turing pose de nombreuses questions, notamment sur ce qu'il mesure réellement et sur le type de systèmes qui pourraient être capables de le passer. Nous en avons parlé dans ce billet.

Le test décrit dans l’article est une version simplifiée de la version pensée par Alan Turing.

La prédiction de Turing en 1950

« I believe that in about fifty years’ time it will be possible to programme computers, with a storage capacity of about 109 , to make them play the imitation game so well that an average interrogator will not have more than 70% chance of making the right identification after five minutes of questioning. » Alan Turing, 1950

Alan Turing pensait donc qu’en l’an 2000 des ordinateurs pourraient être programmés pour passer le test avec une performance supérieure à 30% : dans trois cas sur dix, un interrogateur humain se tromperait et déciderait que le témoin artificiel est un humain.

Ce seuil à 30% paraît un peu faible à la communauté scientifique, selon les auteurs. Un seuil à 50% est généralement retenu, car il permet de dire que le programme réussit en moyenne à tromper l’interrogateur plus souvent qu’un simple tirage aléatoire.

Notons que concernant le test de Turing, d’autres paris sont en cours.

Le jeu de l'imitation

« Nous adoptons une version à deux joueurs du test de Turing, où un interrogateur pose des questions à un seul témoin et doit décider s'il s'agit d'un humain ou d'une IA. Cette formule diffère de la formulation originale de Turing pour trois personnes, mais elle évite la nécessité d'avoir plusieurs participants humains en ligne pour chaque jeu, et elle est devenue une interprétation relativement standard du jeu. » Jones & Bergen, 2023 (traduction libre)

Les auteurs ont ainsi créé 25 témoins artificiels différents, ou joueurs, à partir de l’API d’OpenAI. Ils utilisent un des deux modèles disponibles (GPT-3.5 ou GPT-4) et une “température” comme paramètre additionnel (= 0.2, 0.5 ou 1.0). Chaque système LLM a été configuré par un prompt spécifique décrivant notamment le contexte, la personnalité à incarner et quelques instructions sur la façon de répondre, ex: fautes d'orthographe, de grammaire ou de capitalisation. Les temps de réponse ont par ailleurs été normalisés, car un programme génère des réponses d’habitude plus vite qu’un humain. 

Les règles sont claires

Le taux de réussite est défini comme la proportion de parties dans lesquelles l'interrogateur a décidé que le témoin était humain. Un interlocuteur décidant au hasard aurait ainsi une performance de 50%.

Les auteurs ont analysé 1400 parties. Ils ont créé 25 témoins artificiels différents, ou joueurs, à partir de l’API d’OpenAI. Ils utilisent un des deux modèles disponibles (GPT-3.5 ou GPT-4) et une “température” comme paramètre additionnel (= 0.2, 0.5 ou 1.0). Chaque système LLM a été configuré par un prompt spécifique décrivant notamment le contexte, la personnalité à incarner et quelques instructions sur la façon de répondre, ex: fautes d'orthographe, de grammaire ou de capitalisation. Les temps de réponse ont par ailleurs été normalisés, car un programme génère des réponses d’habitude plus vite qu’un humain.

Les résultats sont intéressants

  1. Dans 63% des cas, un témoin humain est identifié comme tel par un interrogateur.

  2. Le meilleur score de GPT-4 est de 41%.

  3. GPT-3.5 obtient de faibles scores.

  4. Le modèle ELIZA (1966) obtient un score de 27%.

Dans 37% des cas, un interrogateur humain a décidé que son interlocuteur était une machine, alors qu’il parlait en réalité avec un humain. Ce résultat est en soi digne d’intérêt, car on aurait pu s’attendre à un score plus élevé.

Selon certaines conditions de configuration (=le prompt), GPT-4 réussit à tromper les humains et passe pour un humain. Il satisfaisait donc le critère énoncé par Turing en 1950. Ajoutons deux précisions importantes : la configuration n’est pas tout à fait la même que le test de Turing, et un seuil à 50% serait plus convenable. Ça reste cependant un résultat notable. Cette performance est inattendue. Les auteurs la discutent en expliquant qu’une des raisons viendrait des réponses très neutres du programme. Les interrogateurs auraient aussi tendance à rejeter l’hypothèse d’un témoin artificiel car un programme répondrait mieux. Amusant.

Les valeurs absolues des performances ne sont pas réellement significatives, il est plus prudent de ne considérer que les ordres de grandeurs et les performances relatives. Si certains paramétrages de GPT-4 arrivent à tromper les interrogateurs, ses performances restent moins bonnes qu’une décision aléatoire (=c’est donc plutôt un échec). Il est assez rassurant que les témoins humains montrent de bien meilleures performances, même s'ils se trompent souvent.

Les auteurs notent que les décisions des interrogateurs sont principalement basées sur le style linguistique des réponses (35 %) et ce que les auteurs appellent des “traits socio-émotionnels” (27%), ce qui confirme à leurs yeux l'idée que l'intelligence n'est pas suffisante pour réussir le test de Turing. Je n’ai pas de commentaire intelligent à faire sur ce point.

Notons que les participants qui disent comprendre ces systèmes génératifs et ceux qui interagissent fréquemment avec eux n’ont pas obtenu des performances supérieures aux participants plus “naïfs”. Le niveau d’étude ne semble pas non plus avoir un impact sur les résultats.

Le test de Turing reste pertinent

Les auteurs concluent que malgré ses limites, le test de Turing reste pertinent comme outil d’évaluation des performances générales d’un agent conversationnel automatique. Le lecteur intéressé lira avec bonheur l’introduction du papier qui rappellent le cadre du débat.

L’étude montre de nombreuses limites, qui sont détaillées et discutées dans le papier. On attend donc une version améliorée avec beaucoup d’intérêt ! Gary Marcus en a aussi parlé

La mise en garde des auteurs

« Despite this, a success rate of 41% suggests that deception by AI models may already be likely, especially in contexts where human interlocutors are less alert to the possibility they are not speaking to a human. AI models that can robustly impersonate people could have widespread social and economic consequences. As model capabilities improve, it will become increasingly important to identify factors that lead to deception and strategies to mitigate it. » Jones & Bergen, 2023 (traduction libre)

Gageons que nous aurons une illustration très claire de ce risque lors de l'été 2024, lors de la course à la présidence états-unienne. Peut-être serait-il préférable que GPT-5 soit élu, à la place de Donald Trump.


Thomas