
(gentil mais un peu menteur, flatteur)
Il y a, parmi beaucoup d’autres faits qui laissent stupéfait, une chose extraordinaire avec les grands modèles de langage (LLM), c’est leur capacité à faire apparaître (créer ?) du sens à partir de ce qui en est, en paraît être a minima, totalement dépourvu.
C’est très frappant dans les applications dont le matériau d’origine est fait de monologues ou de discussions enregistrées. Quand on demande dans un premier temps au LLM de retranscrire les propos tenus, le résultat est le plus souvent très mauvais, bourré de mots inexistants ou mal compris, de phrases sans queue ni tête, le tout présenté avec des sauts de paragraphes qui ne signifient rien, n’ont aucune pertinence. Mais quand, dans un second temps, on demande au même LLM de rédiger, à partir de cette transcription, un résumé ou une liste des points saillants, tout devient clair, fluide, construit, intelligent.
Dans le matériau de la transcription brute, le LLM sait repérer, ça et là, des mots clés, des bouts de phrase, des tokens particuliers qui dessinent, au delà du magma un peu informe des mots, des structures signifiantes. Et c’est à partir de ces structures signifiantes qu’il reconstitue le sens global, à la façon d’un lézard qui se reconstruirait lui-même à partir d’un fragment de queue coupée.
Le résultat est plus souvent stupéfiant : le résumé produit par le LLM est un texte de grande qualité, d’une qualité et construction souvent meilleures que le propos ou l’échange initial ; à tel point qu’on a l’impression que ce qui est restitué correspond moins à ce qui a été dit qu’à ce qu’on aurait dû ou voulu dire.
De là, le contentement que l’on ressent à la lecture de tels résumés : c’est propre sur soi, bien fait, bien amené, et est plutôt flatteur pour ceux dont les propos sont repris et qui peuvent, à la lecture du document, se trouver assez efficaces, assez convaincants, assez pros dans leur façon de parler et de présenter leurs arguments.
Les LLM font ainsi le travail qui était hier dévolu aux écrivains publics : retranscrire ou résumer un propos mais « en mieux », comme l’écrivain public transformait quelques mots maladroits en somptueuse déclaration d’amour, ce qui était à la fois très satisfaisant pour l’amoureux timide, très juste peut-être au regard des sentiments éprouvés mais très faux et mensonger car ne rendant aucun compte de la difficulté, de l’émouvante et précieuse difficulté des mots à sortir et à s’aligner.
Le résumé produit par les LLM est peut-être fidèle à ce qu’on a voulu dire mais il ne l’est pas, ne saurait l’être à ce qui a été effectivement dit, puisque le LLM n’a véritablement retenu, du magma retranscrit, que quelques mots et tokens, quelques idées, une thématique et une structure à partir desquels il a généré le reste de façon probabiliste, de manière telle que l’ensemble soit conforme à ce qui est ordinairement, statistiquement dit dans ce genre de conversation.
Et ainsi disparaît, possiblement disparaît, Ô Pessoa !, toute pensée buissonnière, toute intranquillité.
En savoir plus sur Improvisations
Subscribe to get the latest posts sent to your email.

Soyez le premier à commenter