Nos programmes se droguent

Beaucoup de bêtises ont été proférées sur les systèmes de génération de contenu, avec beaucoup d’assurance. C’était pénible. On va essayer de ne pas en rajouter.

Quelques bons billets de vulgarisation ont été écrits, dont celui du laboratoire d'innovation de la CNIL, le LINC. Je n’ai malheureusement pas lu ou entendu grand-chose de valable.

Les performances des systèmes de génération d’image comme MidJourney sont remarquables. La messe semble dite. Le traitement des images est une réussite majeure des réseaux de neurones.

Les réseaux de neurones profonds en majesté

La situation est plus contrastée pour les systèmes de génération automatique de texte (SGT). On sait aujourd’hui construire des programmes capables de fournir automatiquement une réponse plausible à la majorité des questions courantes. Le système peut adapter la langue utilisée, le style de la réponse, la longueur du texte et respecter d’autres contraintes. Ce niveau de performances n’était pas atteint précédemment. Notons en passant que la traduction automatique a atteint un niveau satisfaisant en pratique. C’était un des domaines de travail majeur dans les années 1960.

L’articulation entre travail mécanique et travail humain est classique. L’expérience montre qu’il y a un niveau de performance au-dessus duquel il n’est plus efficace de recourir à un travail humain. Dans le cas de la compilation de données et des calculs simples, les performances des ordinateurs sont si élevées que ces tâches ne sont plus réalisées par des humains depuis 50 ans. Il est difficile d’anticiper les usages réels futurs des systèmes génératifs, une fois l’effet de mode passé. Une chose semble sûre, ils ne seront pas des oracles.

Rêveries, fantasmes, chimères, bizarreries

Rêveries, fantasmes, chimères ou bizarreries sont légions dans les résultats des SGT. La raison est simple : ces systèmes ne comprennent pas ce qu’ils racontent. Les textes générés ne sont pas conçus pour faire sens. C’est une conséquence directe du fonction nement des algorithmes utilisés dans les systèmes actuels. Ils fonctionnent en associant les mots selon des règles probabilistes. Le raisonnement logique n’est pas implémenté. Les SGT produisent des textes qui donnent souvent l’impression de suivre un schéma logique, mais les élucubrations vides de sens sont fréquentes. On parle d’hallucinations. C’est une limite théorique (forte) à l’utilisation de ces systèmes comme oracle. Cette limite semble aujourd’hui indépassable.

Un seuil de pertinence va apparaître pour les SGT. Au-dessus d’un certain niveau, la réponse de la machine sera jugée satisfaisante. Les secteurs évoluant dans le traitement de l’information sont en ligne directe : média, communication, conseil, logiciel, finance peut-être. Quels seront les seuils de pertinence acceptés ? Quelles seront les fonctions automatisées ? Les performances actuelles des SGT sont proches d’une reformulation un peu basique de Wikipedia. S’il est trop tôt pour estimer les conséquences sur l’économie, je pense que ce niveau est déjà suffisant dans de nombreux cas.

Ingénieurs et chercheurs feront leur possible pour étendre le périmètre de ces systèmes génératifs et améliorer leurs performances. Les prochaines années seront fascinantes. Les limites pratiques nous donneront, je l’espère vivement, des clés sur le fonctionnement de notre intelligence.

Les développeurs du futur corrigeront-ils les erreurs des programmes de génération ?

Quels seront les effets sur les développeurs et plus précisément sur ceux qui conçoivent des programmes de traitement de données ? Nous suivons directement les évolutions de l’informatique depuis 70 ans. Nos programmes sont traduits et interprétés plusieurs fois avant d’être exécutés par les processeurs. Et c’est heureux, car programmer en binaire est difficile ! Les SGT créeront-ils de nouveaux frameworks de développement ? C’est une possibilité. Vu les performances actuelles, nous ne sentons pas vraiment concernés. La vie est trop courte pour devoir gérer les erreurs engendrées par les délires d’un outil de programmation automatique.


Thomas