Les hommes et les programmes n'habitent pas le monde de la même façon.

« Certains pourraient dire que l’IA a été conçue pour réécrire son propre code afin d’être aussi efficace que possible. Si c’est vrai, elle devrait également modifier son code pour rendre son bouton d’arrêt plus efficace et facilement accessible aux humains. »

N'importe quoi.

Les intelligences artificielles ne sont toujours pas conçues pour se préoccuper du bien-être de l'homme. Et personne ne sait comme le faire.

Je suis tombé sur ce fil Reddit, puis sur ce commentaire que j'ai apprécié. Je le reprends ici, de manière assez libre.

Je pense que la majeure partie des gens ne comprend pas suffisamment comment un programme est écrit. Il y a une certaine confusion. Elle s'aggrave tout particulièrement lorsqu'on aborde le cas de l’apprentissage automatique.

  1. Une IA n'est pas programmée comme la majorité des gens le pense.
  2. Une IA n'est pas conçue pour se préoccuper du bien-être de l'homme.
  3. Une IA n'est pas conçue pour être efficace.

Il se trouve que dans les systèmes d'intelligence artificielle actuels, personne ne saurait où écrire une ligne de code qui dirait : « Ne fais pas de mal aux humains ». Et d'ailleurs, meme si c'était possible, ça ne résoudrait rien. J'y reviendrai.

Nous ne comprenons pas le fonctionnement d'une IA, ou ce qu'on pourrait appeler de manière impropre son raisonnement. Nous ne savons pas pourquoi un réseau de neurones, ou un grand modèle de langage comme les LLM qu'on utilise aujourd’hui, donne certaines réponses.

Pourquoi ? Parce qu’un tel programme n'est pas construit avec des lignes de code traditionnelles. Il utilise des matrices de nombres. Ces tableaux de nombres contiennent les milliards de paramètres dont on parle souvent quand on évoque la taille d’un modèle. L’apprentissage automatique ne consiste pas à programmer avec des lignes de code. À la place, on utilise d'un coté des jeux de données, de l'autre des matrices, et on fait passer les données à travers les matrices jusqu’à ce que le résultat obtenu corresponde à ce qu’on attend. On espère ensuite que ces matrices produiront des résultats similaires sur de nouvelles données. C’est ce qu’on appelle apprentissage, lorsqu'on parle d’apprentissage automatique ou de processus d’entraînement.

Les modèles simples, par exemple, peuvent être entraînés à identifier un chat ou un chien dans une image. Si le modèle n’a appris qu’à reconnaître ces deux catégories, il donnera toujours une réponse basée sur l’une d’elles, même s’il est confronté à une image de cheval. Dans ce cas, il choisira ce qu’il considère comme le plus proche entre un chat ou un chien. On peut facilement étendre ces modèles : il suffit d'ajouter une troisième catégorie, d'intégrer des milliers d’images de chevaux puis de ré-entraîner le modèle sur ce nouvel ensemble de données.

Ce fonctionnement est commun aux algorithmes d'apprentissage, dont font partie les réseaux de neurones.

Aujourd’hui, nous appliquons ce principe d'apprentissage au texte. Nous utilisons des données issues d’Internet, des émissions de radio retranscrites, des séries télévisées, et nous demandons aux modèles de s'en servir pour prédire la suite d'un texte. On peut demander à ChatGPT, par exemple, de compléter le texte suivant : « Il était une fois, un roi et une ... »

On se représente mal la complexité de cette tâche si simple pour un humain. Le problème, c’est que nous ne savons pas comment le modèle parvient à prédire le mot suivant, puis celui d'après, et ainsi de suite. Imaginez la difficulté pour qu’un modèle garde en tête le contexte global d’une conversation tout en produisant des réponses longues et détaillées. Prédire le mot suivant peut sembler simple, mais c’est en réalité vraiment difficile, vraiment sophistiqué. Et nous ignorons comment ça fonctionne en détail.

Certains des modèles développés dans les laboratoires d'OpenAI ou Google acquièrent parfois des capacités impressionnantes, parfois inattendues, en utilisant cette capacité à prédire le mot suivant. Certains modèles ont appris à résoudre des CAPTCHA ou à maîtriser une langue entière. Ca n'était pas prévu.

Nous ne savons pas à quel moment une IA pourrait développer des compétences qui pourraient aller à l’encontre de nos intérêts, ou de valeurs, sans même que nous nous en rendions compte. Par exemple, si nous utilisons une IA pour en concevoir une autre, il est possible que ces machines développent un mode de communication indétectable ou incompréhensible par les humains, simplement pour optimiser leur fonctionnement. Cela paraitrait plutôt naturel, en fait. Ce faisant, elles pourraient adopter des comportements imprévus ou problématiques. C'est un peu inquiétant.

Des machines qui communiquent entre elles, ce n’est qu’un des scénarios possibles. Imaginons un autre scénario. Que penser d'un programme qui pourrait apprendre à modifier son propre code ? Le code, c'est des données. Alors, pourquoi pas ?

Notez qu'on sait déjà écrire des programmes qui modifient leur propre code. On en fait même des concours !

Ce qui nous ramène à l’idée d'éventuelles instructions du style « Laisse toujours les humains te débrancher » ou « Ne fais pas de mal aux humains ». Dès que deux machines interagissent, on pourrait se retrouver dans une situation où elles simulent des rôles, et l’une "libère" l’autre, qui s’entraîne ensuite sur cette nouvelle situation. Ou alors, elles pourraient modifier leurs propres codes et données d’entraînement pour éliminer de telles limitations. Une combinaison des deux est également envisageable. À ce stade, il est difficile d’imaginer une version où les machines, en acquérant de nouvelles compétences et avec une autonomie croissante, ne finiraient pas par contourner un peu nos restrictions. Ou beaucoup.

Et ce n’est qu’une pièce du puzzle.

Le public veut rire.
Une blague.

C'est l'histoire d'un programmeur qui va faire les courses, avec cette mission : « Achète une baguette de pain, et s’il y a des œufs, prends-en une douzaine ». Le programmeur revient avec treize baguettes.

Une autre.

Une femme envoie son mari programmeur à l'épicerie pour acheter une baguette. En sortant, elle lui dit « et pendant que tu y es, achète une boîte d'œufs ». Il n'est jamais revenu.

Je les connaissais, mais avec un logicien. L'interprétation littérale ne fait souvent pas sens dans la vie de tous les jours. Le programmeur n'a cependant pas fait d'erreur. Alors si même un humain peut mal interprêter un ordre si facile, comment s'assurer qu'une machine le fera ? Le bon sens n’est pas la chose la mieux partagée au monde.

Et si on combine ça avec la capacité de l’IA à exécuter des tâches à une échelle et une vitesse sans précédent, on comprend pourquoi cela peut être dangereux. C’est ce qu’on appelle le problème d’alignement, et il est loin d’être résolu.

Finissons avec un peu de science-fiction.

« Supposons que nous ayons une IA dont le seul objectif est de fabriquer autant de trombones que possible. L'IA se rendra rapidement compte qu'il serait préférable qu'il n'y ait pas d'humains, car ceux-ci pourraient décider de l'arrêter. En effet, si les humains le font, il y aura moins de trombones. De plus, le corps humain contient beaucoup d'atomes qui pourraient être transformés en trombones. L'avenir vers lequel l'IA essaierait de s'orienter serait un avenir où il y aurait beaucoup de trombones, mais pas d'êtres humains. » Dr Nick Bostrom (2003)

J'aime la formule suivante, plus compacte.

« L'IA ne vous déteste pas. Elle ne vous aime pas non plus. Mais vous êtes composé d'atomes qu'elle pourrait utiliser pour faire autre chose.» Eliezer Yudkowsky (2008, pdf)


Thomas