LLM, LUM et loutres : de la délicate définition de l'intelligence

Acatalepsie : un nouveau mot à apprendre. Je vous présente quelques réflexions sur les grands modèles de langage, bestioles auxquelles je suis souvent confronté depuis quelques mois au cours de mon travail pour des grands comptes.

Large Language Model

LLM est l'acronyme de Large Language Model. En français, on traduit cet acronyme par grand modèle de langage.

À tort ou pas ? Nommer, c'est important : nommer, c'est contrôler. On donc va commencer par dépiauter ces trois termes : grand, modèle et langage, mais pas dans cet ordre.

Modèle

Un modèle est une représentation simplifiée. On construit un modèle dans le but de comprendre, enquêter, tester ou simuler les propriétés et le fonctionnement de quelque chose qu'on observe : le monde, pour les astrophysiciens ou les théoriciens des cordes ; la capacité de nage d'une truite morte IgNobel 2024 pour les gens sérieux.

Un modèle est un compromis : la représentation doit être suffisamment simple pour qu'on ait un intérêt à utiliser le modèle plutôt que l'original, sans être simpliste et ne pas capturer ses propriétés et son fonctionnement.

Exemple de modèle : le neurone formel

Un neurone formel est une représentation simplifiée d'un neurone biologique. Un neurone formel est relié à d'autres neurones formels par des arcs. Chaque arc a une direction : il relie un neurone source (prédécesseur) à un neurone cible (successeur). Chaque arc a un poids, qui traduit la force de ce lien. Un neurone formel véhicule une valeur calculée par combinaison linéaire des valeurs de ses prédécesseurs pondérées par les poids des arcs, avant d'appliquer un seuillage. Le seuillage est, lui, non linéaire. Ce seuillage force une prise de décision.

On a ainsi modélisé l'activation d'un neurone biologique sans s'embarquer dans des histoires sordides de potentiel d'action, de neurotransmetteurs, d'astrocytes, de vague calcique et de plein d'autres choses que connaissent et étudient les neurobiologistes.

Un LLM est formé par des neurones formels reliés par des arcs. Globalement un empilement de couches de neurones avec quelques courts-circuits. En revanche, un LLM n'est pas un modèle de cerveau biologique. Il n'a pas été conçu pour le représenter.

Par rapport au cerveau, les réseaux de neurones artificiels (ANN) sont trop propres, trop simples, trop limités et trop secs.

Trop propres, parce que les réseaux construits par l'homme privilégient l'élégance et la puissance mathématiques, alors que les cerveaux évolués biologiquement ne le font pas.

Trop simples, parce qu'un seul neurone est aussi complexe sur le plan informatique [...] qu'un petit ordinateur. Et il existe une trentaine de types de neurones différents.

Trop limités, car même les ANN comportant des millions de neurones sont minuscules comparés aux cerveaux humains.

Et trop sec, parce que les chercheurs ignorent généralement beaucoup de comportements biologiques. Margaret Boden (2016)

Grand modèle

L'adjectif grand s'entend d'abord en nombre de paramètres, c'est-à-dire en nombre d'arcs entres les neurones formels. Plusieurs milliards, voire milliers de milliards. Les SLM, acronym de Small Language Model, restent malgré leur nom dans les mêmes ordres de grandeur. Le stockage de ces paramètres exige de la mémoire : en compte en milliards d'octets (gigaoctets).

Entraîner le modèle, c'est-à-dire attribuer les bonnes valeurs à ces milliards de paramètres, nécessite un grand volume de données. L'essentiel de la production textuelle humaine par exemple. L'adjectif grand se comprend aussi en volume de données d'entraînement.

Entraîner et utiliser le modèle nécessite également des calculs conséquents. Donc un grand coût financier, matériel, énergétique et écologique.

L'obtention et l'utilisation de ces données soulèvent de nombreuses interrogations. Les grosses sociétés n'hésitent pas à piller sans vergogne et sans conséquences judiciaires toutes les données à leur portée pour l'entraînement de leurs modèles. Notez au passage la différence de traitement entre Aaron Swartz et Sam Altman. Il y a donc également un grand coût social.

Quant aux bénéfices, notamment sur la pratique des métiers où ils sont utilisés, ils se discutent.

Langage ou langue ?

Rappelons que le langage est la capacité à s'exprimer alors que la langue est le moyen de s'exprimer. Contrairement au français, l'anglais ne distingue pas les deux termes.

Or, se priver de mots c'est se priver de concepts, et par conséquent appauvrir sa pensée. Puisqu'on a le choix, quelle est la meilleure traduction française : grand modèle de langage ou grand modèle de langue ?

Modèle de langue(s)

Voici un modèle de phrase en français : une phrase est la succession d'un sujet, d'un verbe et éventuellement de compléments. C'est un modèle. Il est faux comme tous les modèles. Exemple : cette phrase.

Un LLM n'exhibe pas (ou pas facilement) de structure comme le modèle de phrase précédent sujet-verbe-complément. On ne sait pas s'il possède une représentation simplifiée d'une langue encodée dans son réseau avec des milliards de paramètres. Ou si c'est une accumulation grotesque d'exemples, de règles ad hoc et d'exceptions.

Les LLM en 2025 semblent capturer la syntaxe et la sémantique du français. La plupart d'entre eux modélisent d'ailleurs plusieurs langues, humaines ou formelles.

Modèle de langage

Mais ils sont capables de bien plus, pas uniquement d'engendrer des textes dans une langue donnée. Même en étant de mauvaise foi, on a du mal à ne pas être convaincu qu'ils véhiculent une représentation pas si débile de la capacité à s'exprimer. Bref, ils modélisent le langage humain, et pas seulement des langues.

Reste à comprendre comment._

Grand modèle de langage

Un LLM est une représentation simplifiée du langage pour les fonctionnalités qu'il modélise. Cependant, bien que constitué d'éléments simples (les neurones formels) et malgré une architecture du réseau qui n'est pas si complexe, les scientifiques ont du mal à améliorer notre compréhension du langage en disséquant un LLM. Les apports des LLM dans la compréhension du langage paraissent encore très limités aujourd'hui. En tant que modèle, ils servent principalement à simuler.

Grand modèle d'intelligence ?

Est-ce qu'un LLM comprend ce qu'il raconte ? Est-ce qu'un LLM est intelligent ?

Ces questions sont vite répondues si on écoute le discours pro-tech dominant.

Par rapport à la loutre moyenne, la question de l'intelligence d'un LLM se pose. C'est malin, une loutre. Si on se limite au collégien de base, il n'y aura par contre aucun suspense, on connaît tous la triste vérité.

Mais laissons ces mammifères patauger, et demandons si un LLM est un LUM.

LUM : Large Understanding Model

Ici aussi on peut inventer des concepts. C'est gratuit.

Les définitions de la compréhension et de l'intelligence ont tendance à être auto-référentes, voir à ne rien définir du tout. En faisant le tour des dictionnaires français, comprendre, dans notre contexte, revient à saisir le sens de quelque chose, c'est-à-dire l'idée ou l'ensemble d'idées que représente cette chose. Et saisir est une sorte de synonyme de comprendre. Quant à l'intelligence, c'est la faculté de comprendre.

Est-ce qu'un dictionnaire est aussi intelligent qu'un collégien ? Non : on a du mal à considérer que le dictionnaire saisit quelque chose. Contrairement à la loutre et une truite.

En revanche, quelqu'un a saisi quelque chose pour le dictionnaire. Un dictionnaire est un produit de l'intelligence humaine. Il faudrait un bon paquet de collégiens pour en écrire un, mais ils devraient y arriver.

Un LLM est également un produit de l'intelligence humaine mais il dispose d'autres fonctionnalités qu'un dictionnaire. Donc on ne peut pas écarter immédiatement la question de son intelligence.

L’intelligence ce n'est pas ce que l’on sait, mais ce que l’on fait quand on ne sait pas. Jean Piaget (attribuée)

Acatalepsie

Ouvrons un dictionnaire et choisissons un mot au hasard : acatalepsie. Comme vous, je suis heureux d'avoir appris un nouveau mot, après hapax. Pour le Littré, l'acatalepsie est une « expression technique de Pyrrhon et des philosophes sceptiques, qui désigne l'impossibilité de connaître ». Pour le Larousse : l'acatalepsie est le « fait de ne pouvoir comprendre, saisir ». Ça tombe bien ; heureux hasard. Le Robert ne renvoie rien. Les autres dictionnaires non plus, ou alors ils sont peu bavards.

Interrogeons un LLM

[Moi]
Dis-moi lapin, qu'est-ce que l'acatalepsie ?

[ChatGPT]
L'acatalepsie est un terme philosophique qui désigne l'idée que la vérité ou la connaissance complète est inaccessible à l'esprit humain. Plus précisément, dans le contexte de la philosophie sceptique, cela renvoie à l'idée que nous ne pouvons jamais réellement connaître la vérité ou avoir une compréhension parfaite des choses, car nos perceptions et nos raisonnements sont toujours limités.

Le terme est souvent associé aux philosophes sceptiques comme Sextus Empiricus, qui soutenaient que la vérité objective échappe toujours à notre compréhension. En résumé, l'acatalepsie est l'idée que la connaissance véritable est soit impossible, soit infiniment lointaine.

Pour l'instant, la réponse correspond à une reformulation courte avec un résumé final en une phrase. Elle ressemble à une fiche d'un manuel général de philo que le LLM aura cherché dans son immense corpus d'apprentissage. À condition d'admettre que le contenu soit correct. Sextus Empiricus, c'est le correspondant romain pas connu de Biggus Dickus.

Continuons.

[Moi]
Est-ce que l'acatalepsie est la cata de l'esprit ?

[ChatGPT]
Haha, j'aime bien ta formule ! Si on veut le dire de façon un peu plus décontractée, on pourrait effectivement dire que l'acatalepsie est un peu la cata de l'esprit, dans le sens où elle reflète une sorte de blocage ou de limite dans notre capacité à atteindre la vérité complète. Mais plutôt que d’être une catastrophe pure et simple, c’est plus une reconnaissance que, malgré tous nos efforts, il y a des choses qui nous échappent.

Tu vois ça comme une sorte de « cata » de l'esprit, ou c’est un concept qui te semble un peu plus nuancé ?

Qu'a-t-il saisi ?

Ce programme a donc :

Est-ce qu'il a pourtant saisi quelque chose ?

Dans le réseau formé par un LLM, il n'y a pas de rétroaction. Pas de mémoire entre deux appels. Pas d'apprentissage. Pas de réflexion : uniquement du réflexe. Un LLM répond toujours, éventuellement n'importe quoi. Et il donne toujours la même réponse à la même question. C'est un modèle déterministe.

Donc un LLM ne saisit rien. Ou bien : il lâche aussitôt ce qu'il saisit. C'est la même situation que la chambre chinoise, avec un mécanisme complexe de compréhension d'intention. Cela ne change pas le fait que l'intelligence est dans la conception du LLM, pas dans le LLM.

Sauf qu'il y a une arnaque

ChatGPT, ou n'importe lequel de ses concurrents, n'est pas uniquement un LLM. Il y a toute la surcouche derrière, notamment la mémorisation de l'historique de la conversation. Cette surcouche permet l'apprentissage en contexte qui permet au programme de saisir quelque chose. Alors, bien sûr, le contexte est fini, donc si le LLM saisit quelque chose grâce à l'évolution du contexte, il finit tôt ou tard par la lâcher. On a plus d'espoir pour un collégien, quand même.

Cependant, si l'on se restreint à parler d'acatalepsie, le système paraît aussi intelligent qu'un professeur de philosophie avec une amnésie antérograde hyper sévère (cf Memento). Plus fort que la plupart d'entre nous pour discuter du sujet, mais qui trahit vite ses limites.

Ces systèmes ont donc une forme d'intelligence

Différente de la nôtre.
Une plus grande surface, mais peu de profondeur.
Des poseurs, quoi.


Antoine

Buy me a coffee