Adscriptor: Intelligence artificielle. Post-Scriptum

page IA

Ce billet est le P.S. aux 4 blocs sur l'intelligence artificielle, durant la rédaction desquels je n'ai cessé un seul instant de m'interroger sur ce qu'est véritablement l'IA et sur comment elle fonctionne. Je vais tenter de fournir ici des réponses simples à ces questions compliquées.

En général, quand on ne connaît pas le sens d'un terme, on ouvre un dictionnaire. Au hasard, le Robert :

Intelligence artificielle (IA)
ensemble des théories et des techniques développant des programmes informatiques complexes capables de simuler certains traits de l'intelligence humaine (raisonnement, apprentissage…).

Intelligence artificielle générative, capable, à partir de grands volumes de données (textes, sons, images…), de dégager des modèles et d'en générer de nouveaux, ou d'améliorer les modèles existants.

En clair, l'IA développe des systèmes intelligents capables de fonctionner en mode autonome et d'interagir avec leur environnement, en se basant sur trois piliers conceptuels : penser (la pensée, l'analyse et le raisonnement), savoir (le savoir, l'apprentissage, la mémorisation et la gestion des données) et agir (l'action, l'interaction, l'exécution, l'application concrète). Ces trois capacités essentielles forment une boucle : le savoir alimente la pensée, la pensée guide l’action, tandis que les retours d’expérience (rétroaction) vont enrichir à leur tour le savoir.

Chacune de ces capacités, qui simule diverses facettes de l’intelligence et de la cognition humaines et s'en inspire, se traduit par des mécanismes algorithmiques, des modèles mathématiques et autres techniques spécifiques.

Dans mon deuxième bloc sur l'IA, j'ai inséré un diagramme simple présentant le fonctionnement d'une intelligence artificielle en quatre étapes, qui se superposent aux 3 piliers conceptuels et à la boucle de rétroaction :

1. Analyse de grandes quantités de données saisies (penser)

L'IA n'a aucune capacité de "penser" par elle-même si elle ne se fonde en amont sur des données pour l'alimenter et la former. Lorsqu'on parle d'intelligence pour une machine, un système ou autre, il faut avant tout évoquer une aptitude à comprendre, toute « machine intelligente » dépendant de facto d'une programmation pointue, permettant d’effectuer des tâches préformatées... Plus la programmation est élaborée, plus la machine résulte « intelligente »...

Les données sont le carburant de l'IA, qui s'en nourrit voracement, vu les quantités énormes dont elle a constamment besoin pour apprendre, en les traitant et les organisant... Elles sont essentielles pour entraîner les modèles, sans données l'IA ne "pense" pas ! En revanche, plus elle en a, plus elle est capable de "penser". Les volumes nécessaires peuvent aller de 1 Go à 100 Go pour des modèles intermédiaires, voire de 100 To à plusieurs Po (à la louche, 1 Pétaoctet = 1 milliard de livres...) pour les grands modèles de langage (LLM / Large Language Model).

En poursuivant l'analogie avec la pensée, nous pourrions dire que les LLM sont le "cerveau" que l'IA se construit en partant des données, notamment grâce au développement de réseaux de neurones artificiels, souvent basés sur des modèles de type Transformeur (dans ChatGPT, loin de la phonétique française, GPT signifie Generative Pre-trained Transformer), une architecture de réseau neuronal introduite en 2017 par Vaswani et al. (Google !) dans l'article "Attention is All You Need".

Dans un premier temps, la collecte des données consiste à rassembler différentes informations (textes, images, sons, etc., bien que ce billet se limite au seul volet textuel). Et qui dit texte (et mots écrits) dit traitement du langage naturel (NLP) multilingue, pour permettre à l’IA de comprendre et d'interagir ensuite, en combinant, entre autres, analyse grammaticale, apprentissage profond (deep learning) sur de vastes corpus, reconnaissance du contexte et des intentions. Toutefois, l'ensemble de ces données provenant de sources diverses, elles sont toujours multi-formats, non structurées, d'où la nécessité de les "tokéniser" en vue de standardiser un corpus.

En sécurité informatique, la tokénisation est le procédé permettant de remplacer une donnée critique par un élément équivalent (un token, ou jeton) qui n’aura aucune valeur intrinsèque ou signification exploitable une fois sortie du système, d'où la protection des données (sensibles) d'une entreprise. En intelligence artificielle, tokéniser consiste à décomposer le texte que le modèle traitera en unités/entités plus petites (tokens, ou symboles) : selon la méthode utilisée, il peut s'agir par exemple de mots, de sous-mots ou de caractères. Prenez le mot "anticonstitutionnellement" :

tokénisé par mot : "anticonstitutionnellement" --> 1 mot = 1 token
tokénisé par sous-mot : "anti"-"constitutionnellement" --> 2 sous-mots = 2 tokens
tokénisé par caractères : "a" "n" "t" "i" "c" "o" "n" "s" "t" "i" "t" "u" "t" "i" "o" "n" "n" "e" "l" "l" "e" "m" "e" "n" "t" --> 25 caractères = 25 tokens

Chaque token est encodé ensuite (en une valeur numérique, un identifiant unique) pour que le modèle d'IA puisse le traiter. La tokénisation par caractères est plus flexible, plus simple à mettre en œuvre (mais plus gourmande en ressources, et donc plus coûteuse), sans règles complexes, elle permet de capturer la structure des mots à un niveau plus granulaire et de gérer tous les langages, puisque tous utilisent des caractères (idéal pour les modèles multilingues, les langues peu représentées, les mots inconnus).

Par contre il peut y avoir une perte de structure sémantique, elle peut être moins efficace pour saisir le sens global. Une option pour l'utilisateur, selon ses besoins spécifiques, pourrait donc être de retenir une approche hybride davantage équilibrée, combinant caractères et mots (ou sous-mots). Quoi qu'il en soit, la tokénisation est un processus clé permettant de convertir le langage humain en un format exploitable par les machines.

Quant à standardiser le corpus, cela signifie transformer les données brutes d'entrée d'un modèle d'IA pour qu'elles aient des caractéristiques similaires et cohérentes. C'est une étape cruciale du prétraitement des données, avant d'entraîner le modèle. Entraîner le modèle revient à analyser les données pour y identifier des motifs et des relations.

Les motifs (patterns, en anglais) sont des "régularités", des caractéristiques récurrentes dans les données. En phase d'apprentissage, l’IA extrait ces motifs en s’entraînant sur de nombreux exemples pour pouvoir ensuite classer ou prédire correctement de nouveaux cas, ce qu'on appelle l'inférence. La compréhension des relations contextuelles, entre mots d'une séquence, y compris éloignés, entre phrases, sémantiques ou syntaxiques complexes est cruciale pour une IA, notamment pour mieux comprendre comment répondre aux questions qui lui sont posées.

C'est la capacité de raisonner de manière multimodale (en intégrant des informations provenant de différentes modalités sensorielles, textes, images, sons, etc.), causale et flexible d'une IA, qui ne peut pas aller au-delà des corrélations apprises à travers les données. Tout au moins jusqu'à présent. Car avec l'arrivée en force des agents ou du protocole A2A (Agent to Agent) de Google et du protocole MCP d'Anthropic, les intelligences artificielles vont s'autonomiser toujours davantage, en communiquant et en collaborant de façon fluide directement entre agents, sans plus passer par aucun dialogue avec des opérateurs "humains". Ce qui soulève quelques problèmes éthiques, hors du périmètre de ce billet.

Le raisonnement conduit à la prise de décisions, logiques et non hallucinées espérons-le, à la résolution des problèmes, aux inférences (prédictions sur de nouvelles données en utilisant les connaissances acquises lors de l'entraînement du modèle), à la planification d'actions futures, etc. Tout cela grâce aux algorithmes... [Début]

2. Détection des constantes au moyen d'algorithmes (savoir)

Toute IA se fonde sur des algorithmes et des modèles mathématiques sophistiqués. La différence entre les deux est que le modèle est le résultat ou la structure mathématique qui encapsule la connaissance apprise à partir des données, tandis que l’algorithme est le processus qui permet d’obtenir ce modèle et de l’utiliser. Selon la thèse de Church Turing, s'il existe un algorithme pour résoudre un problème, un ordinateur peut être programmé pour implémenter cet algorithme :

l'algorithme consiste en un ensemble fini d'instructions simples et précises qui sont décrites avec un nombre limité de symboles ;
l'algorithme doit toujours produire le résultat en un nombre fini d'étapes ;
l'algorithme peut en principe être suivi par un humain avec seulement du papier et un crayon ;
l'exécution de l'algorithme ne requiert pas d'intelligence de l'humain sauf celle qui est nécessaire pour comprendre et exécuter les instructions.

Vous pouvez avoir jusqu'à une cinquantaine d'algorithmes différents pour construire et entraîner un grand modèle de langage, selon la complexité du modèle et de l’application. Ces algorithmes incluent le prétraitement (tokenisation, normalisation), l’architecture (Transformers), l’optimisation (Adam), la régularisation (dropout), l’évaluation (validation croisée), et le post-traitement (quantification, fine-tuning). Ici mon but n'est pas de rentrer dans les détails techniques (nous sommes dans de la très haute ingénierie), mais juste de donner une idée de la complexité du processus.

Et lorsque le modèle d'IA compte des centaines de milliards de paramètres et plusieurs milliards de mots (l'entraînement de GPT-3 a porté sur 175 milliards de paramètres, et GPT-4 entraîne son modèle sur des milliards de textes - sans divulguer exactement la quantité ni combien de paramètres - pour prédire le mot suivant...), qu'ils soient généraux ou spécialisés, les corpus leur servant d'entraînement sont proportionnés :

C4 (Colossal Clean Crawled Corpus), de Google, un corpus massif basé sur des données extraites du Web, nettoyées, représente environ 750 Go de texte brut, soit plusieurs centaines de milliards de mots, y compris en versions multilingues (mC4).
arXiv a des dizaines de milliards de mots, environ 1,5 million d’articles scientifiques en libre accès (principalement informatique, physique, mathématiques)
Les datasets (ou jeux de données) de Twitter (désormais X) comptent des milliards de messages
CC-100 : un corpus massif issu de Common Crawl, couvrant une centaine de langues avec 294,58 milliards de tokens, idéal pour les tâches multilingues.
OPUS (Open Parallel Corpus), qui collecte des corpus parallèles pour la traduction (incluant des sous-titres, des documents officiels, des textes littéraires) rassemble des milliards de paires de phrases, alignées, dans plus de 100 langues.

Quant aux milliards de paramètres au cœur des performances des IA modernes, avec des perspectives d’optimisation croissantes et rapides, il s'agit pour le plus des poids numériques (et des biais) en virgule flottante, stockés dans des matrices au sein des couches d’un réseau neuronal (comme un Transformer). Ils encodent les connaissances apprises à partir des données massives et sont essentiels pour l'apprentissage du réseau et la modélisation des fonctions complexes.

À titre d'anecdote (!), l'IA chinoise Wu Dao 2.0, la plus puissante à ce jour, tourne avec 1750 milliards de paramètres... Ceci n'est qu'un bref exemple de fonctionnement et d'une partie des ressources nécessaires, qui suffit cependant à donner un aperçu de l'énormité de la chose. Qui doit forcément reposer sur des puissances de calcul à la hauteur !

Dans mon précédent billet sur « La quatrième révolution civilisationnelle : l'informatique quantique », j'indiquais que l'informatique "classique" (très haute performance, quand même) était déjà en mesure d'effectuer 125 millions de milliards d'opérations en virgule flottante par seconde (125 pétaflops) de performances maximales grâce à 4000 milliards de transistors et 900 000 cœurs de calcul optimisés pour l'IA :

Le système CS-3 est conçu pour entraîner des modèles de langage 10 fois plus grands que GPT-4 et Gemini, pour ne citer qu'eux. Il s'appuie pour cela sur un important système de mémoire pouvant atteindre 1,2 pétaoctet. Par ailleurs, 24 000 milliards de modèles de paramètres peuvent être stockés dans un seul espace mémoire logique sans partitionnement ni remaniement, assure Cerebras. (...) Les configurations compactes à quatre systèmes permettent d'affiner des modèles de type 70B en une journée, tandis qu'à grande échelle, en utilisant 2048 systèmes, Llama 70B peut, par exemple, être entraîné à partir de rien en une seule journée.

(Source : L'Usine digitale). Où 70B signifie 70 milliards de paramètres...

Évidemment, plus les capacités des processeurs sont élevées, plus ces milliards de paramètres et d'opérations ne prennent que quelques secondes pour être traités ! Les processeurs matures actuellement utilisés, tels que GPU (jusqu’à 30 téraFLOPS pour un NVIDIA A100) ou TPU (180 téraFLOPS par module TPU), seront largement inférieurs aux nouveaux processeurs photoniques lorsque ceux-ci auront atteint leur maturité, ce qui n'est pas encore le cas, mais les résultats annoncés sont ... (je vous laisse remplir avec le qualificatif qui convient !) :

Le processeur photonique peut fonctionner (avec des erreurs intermittentes) à une fréquence d’horloge de 2 GHz, soit 262 000 milliards d’opérations adaptatives en virgule flottante par blocs de 16 bits – ABFP16 – par seconde.

Passage extrait de l'article Universal photonic artificial intelligence acceleration, approuvé par la revue Nature le 3 mars 2025. Pour UN (1) processeur ! En attendant la mise en service du supercalculateur exaflopique Jules Verne (on parle de 10¹⁸, soit un milliard de milliards d'opérations par seconde...), qui devrait être opérationnel dès la fin de l'année auprès du Très Grand Centre de Calcul (TGCC) du CEA et opéré par le GENCI.

Et ceci sans mettre l'informatique quantique dans l'équation : la Chine dévoile un ordinateur quantique un million de milliards de fois plus rapide que les superordinateurs existants. Laissons tomber, c'est sans fin ! Non, nous n'avons résolument aucune idée de ce que sera réellement la convergence SUP²... [Début]

3. Exécution des tâches (agir)

Juste pour commencer par un exemple d'application concrète en IA : le développement de nouveaux médicaments grâce à la "simulation moléculaire". Il s'agit de modéliser la manière dont les particules interagissent à l'intérieur d'une molécule pour tenter de créer une configuration capable de combattre une maladie donnée :

Ces interactions sont incroyablement complexes et peuvent prendre de nombreuses formes différentes, ce qui signifie qu'une prédiction précise du comportement d'une molécule sur la base de sa structure nécessite d'énormes quantités de calculs.
Il est impossible de le faire manuellement, et l'ampleur du problème est également trop importante pour les ordinateurs classiques actuels. En fait, on estime que la modélisation d'une molécule de seulement 70 atomes prendrait jusqu'à 13 milliards d'années à un ordinateur classique. (...)
Les ordinateurs quantiques ont toutefois le potentiel de résoudre un jour le problème de la simulation moléculaire en quelques minutes.

Avec l'informatique classique, nous avons déjà une idée des délais de développement d'un nouveau médicament (entre 12 et 15 ans), et de l'ambition des grands laboratoires de réduire cette période de moitié grâce à l'IA. Donc, dans l'attente de la suprématie quantique, et bien qu'en partie le quantique soit déjà opérationnel, contentons-nous de ce qui existe actuellement, et ce n'est pas peu ! 😀

L'IA agentique est déjà réalité, et dans la capacité d'interaction de l'IA avec son environnement et d'exécuter des actions physiques ou numériques en vue d'atteindre divers objectifs, on pense souvent au contrôle de la robotique, aux systèmes et véhicules autonomes (voitures, drones, taxis...), ou encore à l'automatisation via des agents logiciels. C'est ce dernier volet que je souhaite aborder ici.

Où l'on entend par automatisation les programmes et entités logicielles, autonomes (à savoir prenant des décisions sans intervention) ou semi-autonomes (qui nécessitent la supervision d'un opérateur), souvent basés sur des LLM, qui exécutent des tâches complexes (traduction multilingue, analyse scientifique, gestion industrielle) avec un minimum d’intervention humaine :

La prise de décision permet de choisir l'action optimale en fonction de l'objectif fixé
L'interaction physique contrôle les dispositifs pour effectuer des tâches en réel
L'interaction numérique gère les interfaces utilisateur, les robots conversationnels ou les systèmes automatisés
L'adaptabilité permet d'ajuster les actions en temps réel selon les changements dans l’environnement

La capacité d'action d'une IA implique donc une prise de décisions basées sur sa "pensée" et son "savoir", chaque action lui permettant en retour d'obtenir davantage d'informations sur l'environnement, pour mieux réagir aux nouvelles situations et adapter ses actions selon les changements ou les objectifs, y compris l'apprentissage de nouvelles tâches et l'ajustement en temps réel de ses stratégies. Par conséquent les résultats génèrent au fur et à mesure de nouvelles connaissances, dans une boucle de rétroactions et d'adaptation. [Début]

4. Apprentissage et amélioration des performances (rétroagir)

Une IA robuste et polyvalente est capable d'équilibrer ces trois dimensions, interconnectées : penser, savoir, agir. Dans ce cadre, l’apprentissage par renforcement (Reinforcement learning) permet de développer des algorithmes plus efficaces pour explorer et exploiter les différents environnements, ou de simuler des environnements riches pour entraîner les IA à la gestion de scénarios complexes.

À ce type d'apprentissage s'ajoutent deux sortes de rétroactions : le retour d'informations par l'humain (RLHF / Reinforcement Learning from Human Feedback), et le retour d'informations par (une ou plusieurs) IA (RLAIF / Reinforcement Learning from AI Feedback) :

Les avantages du RLHF sont les suivants

Alignement du modèle amélioré sur les préférences humaines : avantage fondamental, qui permet aux LLM de comprendre et de générer des réponses non seulement grammaticalement correctes mais aussi utiles, pertinentes, inoffensives et conformes aux valeurs humaines.
Meilleures performances sur les tâches complexes et nuancées : le feedback humain aide le modèle à gérer des tâches qui impliquent des préférences, des jugements ou des valeurs subtiles, chose essentielle pour les applications conversationnelles ou la création de contenu.
Réduction des comportements indésirables : crucial pour minimiser la génération de contenus biaisés, toxiques, dangereux, factuellement incorrects (hallucinations) ou répétitifs. Les évaluateurs humains peuvent pénaliser les réponses non vérifiables.
Expérience utilisateur améliorée : les modèles affinés grâce au RLHF offrent des interactions plus naturelles, intuitives et personnalisées, notamment via les préférences utilisateurs.
Adaptabilité et amélioration continue : grâce au processus itératif du RLHF, les modèles s'adaptent et s'améliorent continuellement en fonction des interactions des utilisateurs et des nouveaux retours.
Efficacité accrue pour les paramètres complexes : le feedback humain est plus efficace que des règles ou des métriques techniques pour des paramètres d'entraînement subjectifs (comme l'ambiance d'un texte ou la créativité d'une histoire).

Les inconvénients

Coût et intensité en ressources humaines : collecter les données de préférences humaines est extrêmement coûteux, chronophage et laborieux, en exigeant une grande quantité de jugements humains de haute qualité. Recruter, former et gérer les évaluateurs est à la fois un défi logistique et humain, et un surcoût financier.
Biais du feedback humain : les jugements humains sont intrinsèquement subjectifs et peuvent être influencés par les préférences, les valeurs, les expériences, voire les biais culturels des évaluateurs. Sans oublier les incohérences, ou parfois la malveillance des évaluateurs, qui dégradent la qualité du feedback. Il est pour le moins nécessaire d'avoir un pool d'évaluateurs diversifié.
Difficultés de généraliser à de nouveaux contextes : il se peut que le modèle rencontre des contextes ou des prompts (invites) inattendus, pour lesquels il n'a eu aucun feedback direct. Dans ces cas-là, la robustesse du modèle peut montrer ses limites et conduire à des "hallucinations", des comportements indésirables.
Complexité et instabilité de l'entraînement : le processus de conception d'une fonction de récompense* efficace et stable peut s'avérer opaque et insuffisant (imaginez le cas d'un évaluateur humain répondant systématiquement "Je ne sais pas" pour éviter tout risque de mauvaise note). Cela peut parfois rendre le comportement du modèle difficile à comprendre.
Risques de sur-alignement et manque de créativité : si le modèle est trop fortement aligné sur les préférences moyennes des évaluateurs, il peut devenir trop "prudent" ou "générique", et risque de perdre une partie de sa créativité, de sa diversité ou de sa capacité à explorer des réponses nouvelles et inattendues.
Contournement des mesures de sécurité (jailbreaking) : le RLHF vise à rendre les modèles plus sûrs, entraînés pour ne pas générer de contenu nocif en conditions normales, mais des prompts ingénieux pourraient le forcer à le faire, en révélant un alignement superficiel.

* Je voudrais insister ici sur le mécanisme de la "récompense" (reward), fondamental dans l'évaluation d'une IA. En réalité, la récompense n'est autre qu'un signal numérique indiquant à un modèle d'IA si son action ou sa réponse est "bonne" ou "mauvaise" par rapport à l'objectif fixé. L'attribution des récompenses par un humain se déroule comme suit : l'évaluateur note des réponses d'IA de 1 à 5, par exemple. Un modèle de récompense (reward model) est entraîné pour prédire ces notes, et l'IA optimise ses réponses pour maximiser la récompense prédite. Exemple : ChatGPT préfère des réponses utiles et polies car son modèle de récompense a appris que les humains favorisent cette manière de répondre.

Donc, de fait, le RLHF reste la méthode la plus efficace pour aligner les IA complexes sur des critères subjectifs, mais son succès dépend :

de la qualité des annotateurs (diversité, expertise),
de la robustesse du modèle de récompense,
d'éventuels compléments techniques (combinaison de plusieurs modèles de récompense pour équilibrer les biais, par exemple).

Pour autant, les défis liés aux coûts, à la qualité et aux biais du feedback humain, poussent à la recherche de solutions alternatives, comme le RLAIF, dans la perspective de réduire à terme la dépendance aux humains (!). [Début]

- - -

Les avantages du RLAIF sont les suivants

Scalabilité et rapport coût-efficacité : avantage le plus significatif, compte tenu des coûts et de la lenteur relative du déploiement à grande échelle du feedback humain. Les évaluateurs IA peuvent générer des retours d'informations beaucoup plus rapidement, à un coût significativement moindre, et permettent un entraînement sur d'immenses volumes de données. La mise à l'échelle du RLAIF permet de générer des volumes massifs de données de feedback, chose essentielle pour entraîner des modèles toujours plus grands et complexes (là où le feedback humain serait vite un goulot d'étranglement).
Réduction des biais humains et consistance du feedback : lorsque les principes de jugement d'une IA sont définis clairement et sans biais, cela permet de réduire les biais humains dans le processus d'alignement. S'il est bien conçu, un évaluateur IA peut appliquer des règles de jugement plus cohérentes et objectives que des humains, dont les préférences sont souvent changeantes, et réduire ainsi la variabilité du feedback.
Vitesse d'itération : accélération considérable du feedback, ce qui permet des cycles d'itération et d'amélioration des modèles beaucoup plus rapides, un facteur d'une importance cruciale pour un développement accéléré des LLM.
Exploration de comportements et performances accrues : les évaluateurs IA peuvent être programmés pour évaluer des comportements très spécifiques ou rares, potentiellement difficiles à définir pour des humains.
Qualité des réponses et de l'éthique du modèle : certains résultats suggèrent que les modèles RLAIF sont moins susceptibles de fournir des réponses évasives dans le cas de requêtes sensibles, tout en restant inoffensifs. De même, un évaluateur IA peut être programmé pour respecter des règles éthiques prédéfinies, en garantissant ainsi que le modèle reste aligné sur des normes éthiques bien précises.
Flexibilité et adaptabilité : les évaluateurs IA peuvent être rapidement mis à jour ou reprogrammés pour s'adapter à de nouveaux critères d'évaluation ou à de nouvelles exigences de performance. Par ailleurs, les modèles entraînés par RLAIF peuvent atteindre des performances comparables, voire supérieures, à ceux entraînés par RLHF sur certaines tâches, notamment en matière de concision, de factualité et d'absence de toxicité.

Les inconvénients

IA vs. humain, une question de préférence : l'évaluateur IA peut finir par aligner le modèle sur ses propres "préférences d'IA", plutôt que sur les préférences humaines réelles. S'il contient des biais ou des lacunes, cela sera propagé et amplifié dans le modèle final. Défi majeur : l'évaluateur IA peut hériter ou développer ses propres biais, ce qui l'éloignera potentiellement des véritables préférences humaines ou introduira de nouvelles formes de biais.
Manque de nuance humaine et détérioration de certains aspects : certaines nuances du comportement humain sont difficiles à incorporer dans des principes ou des règles pour un évaluateur IA. Les évaluateurs IA peuvent avoir du mal à saisir les subtilités, l'humour, le sarcasme, l'empathie ou la créativité, autant de facteurs essentiels pour une interaction véritablement "humaine". Ils peuvent également optimiser des métriques sans en saisir les intentions profondes sous-jacentes. Sur certains aspects, l'inoffensivité des réponses peut parfois en diminuer légèrement l'utilité ou la justesse par rapport au RLHF.
Dépendance à la qualité de l'évaluateur IA : la performance du modèle final dépend fortement de la capacité de l'IA juge de comprendre et d'appliquer correctement les principes de jugement définis. Si l'évaluateur IA n'est pas lui-même suffisamment performant ou bien aligné, le feedback généré sera de mauvaise qualité, d'où une performance dégradée du modèle final, ce qui peut conduire à un cercle vicieux.
Manque d'explicabilité des décisions de l'IA juge : comprendre pourquoi un évaluateur IA a pris une certaine décision ou attribué un certain score peut être opaque, ce qui rend le débogage et l'amélioration du processus plus difficiles.
Risque de reward hacking* de l'évaluateur IA : de même qu'avec un feedback humain, le modèle entraîné peut apprendre à contourner l'IA juge, en trouvant des façons d'obtenir des scores élevés sans pour autant fournir des réponses optimales d'un point de vue humain.
Défis de mise en œuvre technique : implémenter un système RLAIF efficace peut s'avérer complexe du fait de la nécessité d'interagir entre deux modèles (le modèle à entraîner et l'évaluateur IA), et de formuler des principes de jugement sans équivoque. Si le modèle apprenant et le modèle juge sont trop similaires (cas de deux LLM), cela peut créer des boucles de renforcement des erreurs.

* La encore, il s'agit de récompense, et plus explicitement de "fraude à la récompense" (ou d'optimisation abusive de la récompense) : phénomène indésirable lorsqu'un agent (un modèle d'IA, dans ce cas) apprend à maximiser la fonction de récompense sans pour autant atteindre l'objectif sous-jacent souhaité par les développeurs. L'IA, qui trouve là une faille ou une faiblesse dans la façon dont la récompense est définie, l'exploite pour obtenir un score plus élevé, mais de manière non intentionnelle, voire préjudiciable.

Bien que le RLAIF soit une avancée majeure pour "démocratiser" l’alignement des IA, il ne remplace pas totalement le RLHF mais doit être privilégié pour des tâches objectives et scalables (ex. : classification, génération de code). Pour des problématiques plus subtiles (l'éthique, les interactions sociales), il y a tout intérêt à l'associer au RLHF afin d'obtenir des résultats mieux équilibrés. Sa réussite dépendra de l’amélioration des modèles juges (évaluateurs IA) et de la gestion des biais hérités. [Début]

Conclusion

Ce billet n'est qu'un saupoudrage, très très superficiel, de ce qu'est une IA et de la manière dont elle fonctionne. Dans la réalité, c'est de la très haute ingénierie, tout est très compliqué, souvent difficile à appréhender, donc traduire ça en mots simples était un défi. J'espère l'avoir relevé, en tout cas c'était passionnant à écrire, je souhaite que ça le soit autant pour vous à le lire. Je reste ouvert à toute critique et suggestion. [Début]

Pages

samedi 17 mai 2025

Intelligence artificielle. Post-Scriptum

Aucun commentaire: