Mon dernier billet sur les Quinze grands principes d’habitabilité à l'ère de l'IA met au premier rang la notion de répondabilité, en posant la définition suivante :
Possibilité de répondre à (une personne, une demande) et surtout de répondre de (ses mots, ses actes et leurs effets). Sans répondabilité, pas de responsabilité.
Voici donc la répondabilité réduite à sa plus simple expression : le binôme répondre à / répondre de, mis ensemble, particulièrement adapté à l'IA...
*
J'ai vu passer sur LinkedIn un post sur l'accent anglais des LLM, basé sur l'analyse du document Do Large Language Models Have an English 'Accent'?, dont la thèse principale est que les grands modèles de langage multilingues ont tendance à produire des textes qui, bien que grammaticalement corrects, manquent de naturel et reflètent des structures propres à l'anglais, en prenant l'exemple du chinois et du français. Je ne m'attarderais pas ici sur le chinois, j'en serais bien incapable, mais juste sur le français.
Du fait qu'ils sont entraînés sur des données majoritairement anglophones, les modèles multilingues génèrent des sorties "peu naturelles" dans les autres langues, en reproduisant des schémas de vocabulaire et de grammaire anglais. Au plan technique, l'étude propose de mesurer le "naturel" rendu à l'échelle d'un corpus par deux métriques : la divergence de Jensen-Shannon (JSD) pour le "naturel lexical", et les arbres de dépendance et les noyaux de graphes (Weisfeiler-Lehman) pour le "naturel syntactique".
Selon les auteurs, il existe un fossé systématique et persistant entre le naturel des textes humains et celui des textes générés par les LLM. Ils soulignent l'influence des données d'entraînement, puisque les modèles Mistral (développés en France) montreraient un meilleur naturel en français, probablement grâce à l'utilisation de données linguistiquement plus "authentiques".
Ils en concluent que le naturel linguistique est une dimension cruciale souvent négligée au profit de la seule performance technique, et appellent à une plus grande transparence sur la composition des données d'entraînement. Très bien.
*
Savez-vous ce qu'est le "forçage" d'une langue ? C'est un concept connu depuis des siècles en traduction. Les deux exemples canoniques sont la traduction de la Vulgate de l'hébreu et du grec au latin par saint Jérôme lui-même (patron des traducteurs), et la Bible de King James du latin à l'anglais, où les textes ne sont pas purement et simplement transposés en "bon latin classique" ou en "bon anglais classique", mais où ils créent un idiome neuf, un registre plus qu’une langue, en important des rythmes, des parallélismes, des tours syntaxiques, des manières de faire tenir la solennité dans les mots et les phrases que leur langue cible ne leur aurait pas permis.
La traduction a toujours été l'art de "violenter" une langue maternelle pour lui faire dire ce qu’elle ignorait encore. Ainsi, les traducteurs de la Bible ont « forcé » l’usage des langues, en important des structures hébraïques, grecques ou latines qui ont fini par devenir le socle des langues d'accueil.
Autrement dit, le forçage peut ne pas être une souillure ou une erreur corrigible, mais un choix productif, une manière d’ouvrir des capacités expressives, de forcer la langue à utiliser des mots ou des tournures qu'elle ne connaît pas. Encore. Lorsque l'on parle plusieurs langues, les exemples de ce genre se comptent par centaines, par milliers.
Donc, loin de moi l'idée de mettre saint Jérôme et l'IA sur un même niveau, mais juste de relever une identité de principe : "forcer" la langue est souvent aussi une extraordinaire opportunité de l'enrichir par métissage, de l'obliger à inventer, et à s'inventer, se réinventer en permanence.
*
Je viens de co-écrire avec les LLM près d'un demi-million de mots en moins de six mois (la liste ici) (pour comprendre ce que représentent un demi-million de mots...), et j'en ai déjà plus de 100 000 nouveaux en chantier, or je suis constamment émerveillé par cette capacité de l'IA de faire, concevoir ou planifier souvent bien mieux que nous, "pauvres" humains. Mais restons concentrés sur la production de mots en général, et d'un mot en particulier : répondabilité.
C'est un concept central que je retrouve partout, mais surtout dans Le nouveau régime communicationnel de l'humanité et Pour une écologie du sens. Et c'est un concept crucial aussi dans l'usage que je fais de l'IA et des LLM, notamment en termes d'endossement : là où la répondabilité engage la responsabilité. Permettez-moi de m'attarder un instant sur cette idée.
Les LLM répondent à tout (sans répondre de rien). Le plus souvent pertinemment, parfois n'importe comment. On appelle ça des hallucinations : ils disent n'importe quoi, inventent, bâtissent du vraisemblable sur du faux, du plausible sur du vent. Mais que leur reprocher, puisque ce sont des entités sans existence propre ? Par contre si je prends leur texte et que je le publie sous mon nom, c'est à moi qu'on reprochera - à juste titre - d'avoir affirmé ce qui n'est pas et d'induire ainsi en erreur celles et ceux qui me font l'honneur de me lire.
Mais en apposant ma signature sur le demi-million de mots évoqués plus haut, cela signifie que j'accepte d'en répondre - erreurs comprises - mot pour mot. Et donc de justifier mes choix, en toute circonstance. D'ailleurs, j'ai déjà eu l'occasion de m'en expliquer :
Lorsque je trouve des raisonnements [ou des mots] pertinents et que je décide de les insérer dans mon texte, je les fais miens. Cela signifie que je me les approprie, et que lorsque je publie un texte avec des mentions de ChatGPT ou de n'importe quelle autre IA dedans, j'en assume la paternité, en toute conscience. Ce n'est pas pour rien que je signe tous mes billets !
*
Un chercheur universitaire romain, Walter Quattrociocchi, a forgé un néologisme italien, l'epistemia, qu'il définit comme une incapacité de distinguer entre ce qui a l'air d'être de la connaissance et ce qui est réellement de la connaissance. Selon lui l'épistémie désigne un court-circuit entre crédibilité perçue et fiabilité réelle : un contenu peut nous sembler vrai, non parce qu’il l’est, mais parce que sa forme linguistique nous rappelle celle des contenus qui nous disent habituellement des choses vraies.
D'autant plus que les LLM ne se contentent plus de générer des textes plausibles, ils le font en s'adaptant à l'utilisateur. Ce que les spécialistes nomment la "sycophancie", complaisance ou flagornerie, comme vous préférez, à savoir la tendance d'un modèle à donner raison à l'utilisateur même quand c'est faux, discutable ou non étayé.
En conclusion, l'épistémie est pire que l'ignorance : c'est l'incapacité de percevoir qu'il manque quelque chose, parce que tout semble déjà en place. Les LLM n'élèvent pas le niveau du débat. Ils l'aplanissent. Tout se présente comme information. Tout est à la fois accessible, fluide, autoritaire, et vide... Il faut donc une nouvelle forme d’alphabétisation. Non seulement aux contenus, mais à la forme de l’information. Comprendre comment une phrase a été générée devient aujourd’hui aussi crucial que d’en comprendre le sens.
*
Comment traduire epistemia en français ? Il est évident que le candidat le plus naturel, le plus logique est épistémie. Problème : depuis la notion d'épistémè (de la racine grecque επιστήμη qui signifie savoir ou connaissance) selon Michel Foucault (voir Les Mots et les Choses, 1966), à savoir :
l’ensemble des relations qui, à une époque donnée, unissent les pratiques discursives et rendent possibles certaines formes de savoir
rethéorisée en épistémie par Georges Canguilhem (Mort de l'homme ou épuisement du cogito ?, 1967, reprise ensuite dans Études d'histoire et de philosophie des sciences, 1968), comment introduire en français un nouveau sens à ce terme sinon par réassignation (voire par déstabilisation) sémantique ?
Nous avons là un autre exemple de ce que signifie "forcer la langue" : face au concept foucaldien déjà notoire d'épistémè, il s'agit d'importer le sens italien contemporain d'épistémie - en tant que condition cognitive de confusion où la vraisemblance linguistique se substitue à la validation épistémique - pour combler un vide conceptuel.
*
En conclusion, ce double geste de forçage linguistique (répondabilité d'un côté, épistémie de l'autre) devient nécessaire dès lors que la langue doit nommer des réalités qu’elle ne sait pas encore distinguer. Toute langue vivante doit s’ajuster aux transformations de l'épistémè de son époque. Maintenant, faut-il vraiment accorder une importance décisive au fait que le premier terme émerge d'une IA largement entraînée sur des corpus anglo-saxons, tandis que le second procède d'une initiative humaine ? Ce qui importe n’est-il pas moins l’origine que la fécondité du néologisme ?
À vous la réponse : une réponse ... répondable !



