Nvidia est l'une des 3 plus grosses capitalisations au monde, avec Microsoft et Apple, qui totalisent ensemble plus de 10000 milliards de $ ! Et ça va continuer de grimper...
Lors de la rédaction de mes billets sur l'intelligence artificielle, j'ai constamment retrouvé Nvidia durant mes recherches sur tel ou tel secteur. Jusqu'alors, pour moi, Nvidia c'était les cartes graphiques et le gaming. Grave erreur ! Due à une méconnaissance totale de cette société. Nvidia, c'est aussi les véhicules et la conduite autonomes, la robotique, les data centers, le calcul haute performance (CHP) et, surtout, l'intelligence artificielle. D'où mes fréquentes rencontres avec la société en écrivant à ce sujet.
Fondée en 1993 par Jensen Huang, Nvidia s’est d’abord fait un nom grâce à ses processeurs graphiques (GPU), qui ont transformé l’industrie du jeu vidéo. Les GPU GeForce, lancés dans les années 1990, ont redéfini les standards du graphisme en offrant des performances inégalées pour les jeux et les applications visuelles. Mais la société ne s’est pas arrêtée là. En comprenant le potentiel de ses GPU au-delà du gaming, l’entreprise a pivoté vers des secteurs stratégiques, notamment le calcul scientifique et l'IA. Au point de devenir l’épine dorsale de l’intelligence artificielle mondiale.
Dernier coup de maître en date : l’annonce de la création du premier cloud IA industriel souverain d’Europe, en Allemagne, en partenariat avec Deutsche Telekom. Plus qu’un simple projet technologique, c’est un signal géopolitique, économique et écologique. Du reste, l’entreprise se poisitionne désormais comme une infrastructure centrale de l’économie numérique, en évolution constante, à l’instar d’Amazon pour le e-commerce ou de Google pour la recherche.
En 2025, Nvidia vise surtout à développer un écosystème complet, verticalement intégré, un empire technologique allant du silicium au cloud, en passant par le matériel, les frameworks logiciels, les plateformes IA, la robotique, le gaming et la simulation industrielle, la santé, la 6G ou le métavers, etc. Cet écosystème s’articule autour de plusieurs piliers interconnectés, chacun renforçant les autres pour créer une synergie unique, une chaîne complète d’innovation IA : calcul, logiciels, outils, services, modèles, cloud…
1. Le matériel (hardware) est le métier historique de Nvidia, au cœur de l’offre de la société, la fondation de tout l’écosystème. Ce sont les processeurs graphiques (GPU) et les systèmes spécialisés alimentant une vaste gamme d’applications. Inutile d'énumérer ici tous les matériels de Nvidia, je m'intéresserai juste aux unités GPU NVIDIA Blackwell de la série RTX 50, embarquant chacune 92 milliards de transistors, ou GB200, GTC 2024, offrant jusqu’à 208 milliards de transistors et une efficacité énergétique 25 fois supérieure pour les modèles IA à grande échelle...
Soit des performances inégalées pour les jeux vidéo, le streaming, les data centers, l'entraînement et l'inférence de grands modèles de langage (LLM), les simulations scientifiques, le calcul haute performance, la cryptographie, la conduite autonome et la mobilité, la robotique et les systèmes embarqués (drones, robots industriels, chiens-guides robotisés)...
2. La couche logicielle, qui connecte le matériel et les applications, représente un écosystème robuste pour maximiser les performances de son matériel et faciliter l’adoption par des millions de développeurs, en fournissant un framework de programmation et des bibliothèques IA permettant d'exploiter la puissance des GPU Nvidia dans des applications variées (IA, simulation, cryptographie).
CUDA (Compute Unified Device Architecture) est le langage propriétaire pour la programmation des GPU, la base de tout l’écosystème IA de Nvidia
RAPIDS : traitement des données en GPU (dataframe, ML)
NIM (Inference Microservices) : conteneurs d’inférence IA prêts à l’emploi, par exemple pour la traduction automatique, les avatars IA, ou des outils comme Triton Inference Server
Modulus : Simulation par réseaux neuronaux physiques (PINNs)
NVIDIA AI Enterprise : suite logicielle pour déployer, gérer et optimiser des workflows IA en entreprise
Omniverse : plateforme collaborative pour la création et la simulation 3D en temps réel, la conception de mondes virtuels, l'architecture, le cinéma (utilisé par Pixar, ILM), l'intégration de l’IA générative pour accélérer la création de contenus 3D
DLSS (Deep Learning Super Sampling) : technologie IA pour améliorer les performances et la qualité graphique dans les jeux. DLSS 4 (2025), avec Multi Frame Generation, génère jusqu’à trois images supplémentaires par image calculée
Isaac et Cosmos : plateformes pour la robotique et les systèmes autonomes. Isaac GR00T N1 (2025) pour les robots humanoïdes et Cosmos (2025) pour les simulations IA physiques, utilisées par Uber et Wayve
RTX Remix : outil servant à remastériser des jeux classiques avec ray tracing et DLSS. Concours ModDB (2025) pour encourager les développeurs à moderniser des jeux
3. Les plateformes logicielles verticales proposent des services cloud pour démocratiser l’accès à ses technologies et élargir son écosystème en créant des plateformes par industrie, adaptées à des secteurs entiers.
Industrie & manufacturing : jumeaux numériques, automatisation, maintenance prédictive, simulation collaborative 3D en temps réel à distance (Omniverse)
Télécoms : IA dans la 5G, détection d’anomalies réseau
Finance : modélisation, prédiction, accélération de calculs
Robotique et simulation de robots, perception, contrôle (Isaac)
Cloud gaming (GeForce NOW), intégration de DLSS 4 et prise en charge de la série RTX 50 pour des graphismes ultra-fluides (2025)
IA générative, IA en entreprise, avec NVIDIA DGX Cloud pour l'entraînement et l'inférence IA, basé sur les superordinateurs DGX (en partenariat avec AWS, Google Cloud, Microsoft Azure), DGX Cloud (IA-as-a-service dans le cloud), NVIDIA AI Foundry, pour aider les entreprises à créer des modèles IA personnalisés (collaboration avec SAP et Salesforce pour intégrer l’IA dans les workflows d’entreprise en 2025), NeMo (développement, tuning et déploiement de LLM), Nvidia AI Enterprise (suite logicielle certifiée pour déploiement IA en entreprise), etc.
4. Collaborations, partenariats stratégiques et intégrateurs. Nvidia ne travaille plus seule, tout son écosystème repose sur un vaste réseau de partenariats stratégiques qui en amplifient l'impact.
Automobile : partenariats avec Tesla, Mercedes-Benz, Volvo, BYD, et Aurora pour la conduite autonome.
Technologie : collaborations avec Arm (pour DRIVE Thor), MediaTek, Qualcomm (NVLink Fusion, 2025), et Nintendo (puce personnalisée pour la Switch 2, 2025).
Recherche et santé : coopération avec Novo Nordisk (superordinateur Gefion), le Royaume-Uni (Cambridge-1) et des universités pour la recherche en IA.
Sport et médias : partenariats avec la NHL et La Liga pour l’analyse de données via IA, ou avec Disney pour des robots animatroniques.
Cloud : Microsoft Azure, Google Cloud, Oracle, AWS (via DGX Cloud ou collaborations)
Open source : participation à PyTorch, Kubernetes, Hugging Face (via intégrations)
5. Domaines d’application. L’ensemble de l'écosystème s’étend à de nombreux secteurs, chacun bénéficiant de ses technologies matérielles et logicielles.
IA et Deep Learning : entraînement de grands modèles de langage (LLM), génération de contenu (texte, image, vidéo) et applications comme la traduction automatique via NIM.
Gaming : expériences immersives avec RTX, GeForce NOW, et NVIDIA ACE pour des PNJ IA interactifs.
Automobile : conduite autonome et systèmes ADAS (Advanced Driver Assistance Systems) via DRIVE.
Robotique : développement de robots humanoïdes et industriels avec Jetson et Isaac.
Santé : découverte de médicaments, analyse d’images médicales (collaboration avec GE Healthcare).
Métavers et création : Conception 3D et simulations virtuelles via Omniverse.
Télécommunications : Recherche sur la 6G avec le programme 6G Developer (Sionna).
6. Communauté et développeurs. Nvidia soutient une communauté mondiale de développeurs pour élargir l’adoption de ses technologies.
NVIDIA Developer Program : fournit des outils, SDK, et des formations pour les développeurs (par exemple, CUDA, Omniverse, Isaac).
NVIDIA Inception : programme pour les startups IA, offrant des crédits cloud et un accès à DGX Cloud.
Open source : contributions à des projets comme Llama-Nemotron-Nano-VL-8B-V1 et Sionna pour la recherche 6G.
7. Vision et impact global. Sous la direction de Jensen Huang, Nvidia se positionne comme un architecte de l’avenir technologique, avec une vision centrée sur l’IA physique (robots, véhicules autonomes) et l’IA générative. L’écosystème vise à :
Démocratiser l’IA : avec des outils comme DIGITS et NIM, Nvidia rend l’IA accessible aux créateurs individuels et aux petites entreprises, aussi bien en mode cloud que edge (IA embarquée sur les dispositifs divers, smartphones, etc.)
Optimiser les performances : l’intégration matériel-logiciel (par exemple, GPU Blackwell + CUDA) maximise l’efficacité
Innover dans tous les secteurs : de la santé au gaming, en passant par la 6G et le métavers.
Enfin, le Nvidia-powered cloud (nouvelle génération) ambitionne de devenir « la fabrique mondiale de l’IA ».
Centres de données ultra-performants (SuperPODs), refroidissement par immersion / basse énergie
Déploiement de clouds IA locaux (Europe, Japon, Inde, etc.)
Standardisation avec Nvidia AI Factory : des fermes IA clé en main, de véritables usines d'IA.
*
Pour en venir au cœur de métier de la société, les puces de Nvidia ont des performances phénoménales : sur un nœud de 2 nm (nanomètres), la GPU NVIDIA Blackwell annonce 30 petaFLOPS FP8, soit 50 % de plus que H100, une latence de ~3-5 ms, de 15 à 20 % d'efficacité énergétique gagnée, des coûts réduits de 20 %, une précision accrue (95 % vs. 80 %) et une confidentialité renforcée, sur des pipelines optimisés (TensorRT). Cela signifie qu’une puce ou un système comme le GPU NVIDIA Blackwell peut effectuer 30 petaflops (30 millions de milliards) d’opérations par seconde, en utilisant le format de calcul à virgule flottante FP8 (8 bits), optimisé pour les calculs d’intelligence artificielle (IA) comme l’entraînement et l’inférence des grands modèles de langage (LLM), en accélérant à la fois l’entraînement (60-70 jours pour mille milliards - 1T - de paramètres) et l’inférence (3-5 ms).
En termes simples, l'inférence désigne la phase d’exploitation d’un modèle entraîné, à savoir l'utilisation du modèle pour générer une prédiction, une classification, une action à partir de nouvelles données, ou une traduction automatique (TA).
Ce sont ces caractéristiques qui ont probablement séduit DeepL, société concurrente de Google Translate et des autres acteurs majeurs de la TA (Microsoft, Facebook, ChatGPT, etc.) : le troisième SuperPOD NVIDIA DGX déployé devrait lui permettre de traduire l'ensemble du Web (environ 25 milliards de milliards de mots, soit 50 milliards de pages Web estimées à 500 mots chacune) en 20 jours, contre 200 jours auparavant (c'est mon calcul), soit une capacité de production de textes 30 fois plus élevée que les systèmes précédents !
Pour citer des chiffres plus représentatifs, le taux de traduction mots par seconde est de 14,4 millions/s (par comparaison, en quarante ans de métier, à la louche, j'ai traduit environ 2 millions de mots...), soit 866 millions de mots à la minute, 52 milliards de mots à l'heure, etc. Déjà, au vu de ces quelques stats, on comprend bien que le traducteur humain n'est plus compétitif, quantitativement parlant !
Ne lui reste plus que la qualité : le taux d'erreur admis sur ce niveau de traduction automatique étant de 5%, cela définit assez bien la marge de manœuvre persistante, pour l'instant... Soit environ 1250 milliards de mots toujours à traduire et à corriger !
Courage, traductrices, traducteurs, gardons l'espoir, il y a encore du taf !
Cela fait longtemps que je m'intéresse à la mafia ou à qui en parle, Italie oblige : si vous recherchez "mafia" sur ce blog, vous allez trouver une trentaine de résultats. Plus récemment, j'ai commencé à approfondir le thème "intelligence artificielle (IA)", mais je n'avais pas encore pensé associer ces thèmes dans mes quatre blocs sur l'IA. Jusqu'à ce que je tombe sur cette déclaration de Nicola Gratteri, l’un des magistrats antimafia les plus respectés d’Italie (sauf par la politique...) :
Selon lui, l’intérêt de la mafia pour l’IA n'est plus un danger hypothétique, mais bien une évolution logique du crime organisé qui cherche, comme toujours, à exploiter les technologies émergentes plus rapidement que les régulations ne les encadrent :
« L'intelligence artificielle accélérera le monde, elle fournira des réponses en une nanoseconde, contrairement aux jours que ça prend pour une analyse humaine, même avec des ordinateurs puissants », ou encore « Nous aurons un monde gouverné par trois/quatre centres de pouvoir, pas plus, qui géreront et mettront en œuvre l'intelligence artificielle. »
Au profit de qui ? Et qui sont ces centres de pouvoir ?
Nicola Gratteri n'en mentionne pas explicitement la nature, ne précise pas s’il s’agit d’organisations mafieuses spécifiques, d’entités étatiques ou d’acteurs technologiques influencés par des réseaux criminels. Il semble juste évoquer une concentration du pouvoir technologique dans quelques entités globales, supérieures aux états et aux multinationales, qui pourraient inclure des organisations criminelles ou des groupes infiltrés par elles, exploitant l’IA pour maximiser leurs profits et leur influence. Ces centres ne sont pas nécessairement des mafias au sens classique ('Ndrangheta, Camorra, etc.), mais pourraient représenter des coalitions de pouvoir mêlant crime organisé, technologies et acteurs économiques ou politiques. Au plan technologique, il est tout à fait probable que ces centres de pouvoir (sans nommer les entités qui les contrôlent et les manœuvrent dans l'ombre) sont les suivants :
Plateformes numériques, banques en ligne et sociétés fintech
Réseaux digitaux et plateformes digitales (dark web, réseaux sociaux)
Les mafias embauchent aujourd’hui des ingénieurs informatiques et des hackers de toutes nationalités, en faisant appel à leurs compétences numériques pour renforcer leurs capacités dans le cyberespace, notamment en termes de ransomware, de phishing ou d'exploitation de la blockchain...
La mafia a recours à des banques en ligne et des sociétés fintech, capables de manipuler et de blanchir des milliards via des structures invisibles, parfois hébergées ou opérant dans des pays "discrets". Ce nouveau pouvoir financier a la capacité de transformer, gérer et dissimuler d’énormes flux monétaires numériques. Par exemple, les cartels sud-américains acceptent d'être payés en cryptomonnaies...
L’infiltration croissante des mafias dans le dark web, les messageries chiffrées, les réseaux sociaux, les plateformes de streaming ou même le métavers crée un énorme pouvoir de communication et de visibilité, qui leur permet de recruter, coordonner des actions, diffuser des menaces ou influencer l’opinion via le Web. Ce pouvoir communicationnel s’appuie sur le contrôle de tous ces canaux.
Concernant le dark web, Gratteri souligne que la Camorra est déjà pleinement intégrée à ce réseau pour gérer des flux de drogue : « Avec un simple téléphone portable, grâce à un logiciel dédié, un camorriste peut acheter 2 000 kilos de cocaïne en restant assis sur sa chaise », voire commander l'assassinat d'une personne ou des millions de bitcoins, cela signifie que le monstre évolue, et qu'il évolue rapidement.
Gratteri nous décrit ainsi une mafia à l'avant-garde, en phase avec son temps. Dès la naissance de Facebook, les premières mafias à utiliser le réseau social pour se forger une image et communiquer furent les cartels mexicains, qui étalaient leur richesse et leur puissance, leurs voitures de luxe, leurs montres en or et leurs montagnes d'argent tout en envoyant des messages de mort aux cartels adverses. Puis la Camorra s'y est mise aussi, en suivant la même méthode que les mexicains. Ensuite les jeunes se sont tournés vers TikTok, et toutes les mafias ont migré vers TikTok.
Car elles se comportent exactement comme une entreprise : pour être efficaces, performantes et augmenter leurs profits, elles ont besoin de faire leur publicité : « Vu que les jeunes représentent le groupe social le moins riche mais aussi celui qui dépense le plus, les entreprises se tournent vers TikTok. Et les mafias adoptent le même modèle en allant sur TikTok et en suivant les jeunes. C'est là qu'elles se font connaître », selon Nicola Gratteri.
Je me suis quand même fortement interrogé sur la façon dont les mafias peuvent utiliser l'IA et, en bon prompt engineer, j'ai posé directement à quatre IA (ChatGPT, Gemini, Grok et DeepSeek) la question suivante :
Nicola Gratteri, un grand juge italien, a déclaré que la mafia s'intéressait à l'utilisation de l'intelligence artificielle ! Comment est-il possible qu'une mafia puisse utiliser l'intelligence artificielle sans aucun contrôle ni signalement d'utilisation suspecte à une autorité de surveillance ?
Les réponses sont éclairantes ! Je résume.
ChatGPT
Question à la fois préoccupante et très pertinente. Comment la mafia peut-elle utiliser l’IA sans contrôle ?
Aucune obligation d’identification pour l’usage de l’IA en ligne
Il est possible d’utiliser ou de créer des IA (notamment en open source ou via des API) sans vérification d’identité stricte, surtout dans des pays où la régulation est faible. Des modèles open source (type LLM, vision, génération vocale) peuvent être hébergés localement, donc hors du radar des autorités.
L’IA est un outil, pas une entité traçable
Contrairement à un compte bancaire, une arme ou une plaque d’immatriculation, l’IA ne laisse pas toujours de trace directe, surtout si elle est utilisée hors ligne ou dans des circuits illégaux. Les activités peuvent être disséminées dans des réseaux chiffrés, anonymisés ou via des intermédiaires, comme le dark web.
Les applications criminelles sont difficiles à distinguer de cas d’usage légitimes. Ainsi l'IA peut servir à :
générer de faux documents (deepfakes, identités synthétiques), automatiser des fraudes en ligne (phishing avec génération de texte ou de voix), optimiser des flux logistiques de trafics illicites, surveiller ou manipuler des marchés légaux via des algorithmes... le tout en imitant des fonctions commerciales classiques, ce qui rend leur détection extrêmement complexe.
Vide réglementaire et coordination limitée
Aujourd’hui, la régulation de l’IA (y compris l’AI Act européen) n’est pas encore pleinement en vigueur, et les autorités de surveillance ne sont ni centralisées ni interconnectées internationalement. Les mafias savent exploiter les failles transnationales là où les polices ou agences fiscales ne peuvent pas encore agir.
Faible culture numérique dans certains organismes publics
Les mafias peuvent avancer plus vite technologiquement que certains corps policiers ou judiciaires, souvent à court de moyens humains et techniques spécialisés. Les alertes sur des activités suspectes sont parfois manquées, faute d’expertise en cybercriminalité. À titre d'exemple, une mafia peut entraîner un modèle de génération vocale pour imiter un banquier, appeler une victime, déclencher un transfert de fonds… Le tout en quelques minutes, sans intervention humaine directe, sans signalement automatique, et avec peu de traces numériques.
Que faudrait-il faire ?
Créer des unités spécialisées en IA criminelle dans les services de renseignement, imposer une traçabilité et une déclaration d’usage pour certains outils d’IA, renforcer la coopération internationale et la cybersurveillance, éduquer les juges, les policiers et les citoyens sur les risques liés à l’IA...
*
Grok identifie plusieurs facteurs liés à la nature de l’IA, à l’opacité des activités criminelles et aux lacunes dans les cadres réglementaires et technologiques actuels, en raison desquels la mafia réussit à utiliser l’IA sans contrôle ni détection :
1. Nature décentralisée et accessible de l’IA
Accessibilité des outils d’IA : les technologies d’IA, comme les modèles de machine learning, les outils de traitement du langage naturel (ex. : ChatGPT, resemble.ai) ou les algorithmes d’analyse de données, sont de plus en plus accessibles au grand public. Les criminels peuvent se procurer des logiciels open source ou des services commerciaux via des plateformes légales sans attirer l’attention. Par exemple, des outils comme TensorFlow ou des API de reconnaissance faciale sont disponibles sans restriction stricte.
Marchés illégaux : les organisations criminelles peuvent acquérir des outils d’IA avancés ou des services personnalisés sur le dark web, où les transactions sont anonymisées (ex. : via des cryptomonnaies). Cela rend la traçabilité par les autorités extrêmement difficile.
Absence de signature évidente : contrairement à des activités physiques (ex. : trafic de drogue), l’utilisation d’IA peut être discrète. Par exemple, l’entraînement d’un modèle d’IA pour analyser des données ou générer du contenu synthétique (deepfakes) peut se faire sur des serveurs privés sans laisser de traces visibles pour les autorités de surveillance.
2. Applications criminelles de l’IA
Fraudes et usurpation d’identité : les mafias peuvent utiliser l’IA pour créer des deepfakes (voix ou vidéos clonées) afin d’usurper l’identité de personnes de confiance (ex. : PDG d’entreprise) pour des escroqueries. Un exemple notable est une fraude de 243 000 USD en 2019 au Royaume-Uni, où des criminels ont utilisé l’IA pour imiter la voix d’un dirigeant.
Blanchiment d’argent et gestion des opérations : l’IA peut optimiser les opérations criminelles, comme la gestion des chaînes d’approvisionnement illégales ou l’analyse des risques pour éviter la détection. Une étude de 2024 montre que des modèles d’apprentissage automatique peuvent prédire les vulnérabilités des municipalités italiennes à l’infiltration mafieuse, une technologie que la mafia pourrait elle-même exploiter pour identifier des cibles faibles.
Évasion des systèmes de sécurité : les criminels peuvent utiliser l’IA pour contourner les systèmes de détection biométrique (ex. : reconnaissance faciale) ou attaquer les infrastructures numériques (ex. : piratage de bases de données). Les drones autonomes pilotés par IA, déjà utilisés par des cartels au Mexique, permettent des opérations de surveillance ou d’attaque sans intervention humaine directe.
Désinformation et manipulation : l’IA peut générer du contenu synthétique (ex. : fake news, faux profils sur les réseaux sociaux) pour manipuler l’opinion publique ou détourner l’attention des autorités.
3. Lacunes dans la surveillance et la régulation
Retards réglementaires : les cadres légaux pour réguler l’IA sont encore en développement. Par exemple, l’EU AI Act, proposé en 2021, vise à promouvoir une IA "fiable", mais il est critiqué pour son incapacité à couvrir pleinement les usages dans des contextes sensibles comme les migrations ou le crime organisé. Les criminels exploitent ce vide juridique pour opérer sans contraintes.
Manque de transparence : les systèmes d’IA, en particulier ceux développés sur le dark web ou par des acteurs non réglementés, ne sont pas toujours traçables. Les autorités peinent à surveiller les serveurs privés ou les transactions cryptées.
Limites des technologies de détection : les outils de surveillance (ex. : caméras IA, reconnaissance faciale) sont souvent conçus pour des usages spécifiques (ex. : contrôle des foules) et ne détectent pas les activités criminelles numériques complexes, comme l’entraînement d’un modèle d’IA pour des fraudes.
Complexité des enquêtes : les enquêtes sur les activités mafieuses utilisant l’IA nécessitent des compétences techniques avancées et une coordination internationale, souvent absentes ou insuffisantes. Par exemple, une opération de blanchiment d’argent découverte à Londres en 2021 impliquait des réseaux russes et des criminels interconnectés, rendant la traque complexe.
4. Absence de contrôle dans les environnements criminels
Opacité des opérations : les mafias opèrent dans des environnements clandestins, en utilisant des infrastructures numériques privées (ex. : serveurs cryptés, VPN), ce qui limite la capacité des autorités à détecter l’utilisation d’IA en temps réel.
Corruption et infiltration : comme nombre d'études le mentionnent, les mafias infiltrent souvent les institutions territoriales locales. Une étude de 2024 montre que l’IA peut prédire ces infiltrations, mais les criminels pourraient également utiliser ces outils pour identifier des cibles vulnérables, contournant ainsi les autorités.
Manque de ressources des autorités : les forces de l’ordre, en Europe mais pas seulement, manquent souvent de moyens ou de formation pour surveiller l’utilisation de l’IA par des criminels. Les budgets limités et le manque d’expertise technique entravent les enquêtes.
*
DeepSeek et Gemini concordent sur le fait que les mafias exploitent déjà l'IA de manière clandestine, et que la menace s'aggrave chaque jour davantage en raison de l'accessibilité des technologies, de la sophistication des méthodes d'occultation et des graves problématiques liées à la surveillance d'outils aussi puissants et évolutifs :
L'IA n'est pas l'apanage des États ou des grandes entreprises. De nombreux outils et modèles d'IA sont librement modifiables et accessibles sans vérification stricte de l'utilisateur final, y compris via des services cloud grand public. La mafia pourrait utiliser ces ressources sans laisser de trace évidente menant à une activité criminelle spécifique. Différents frameworks permettent de développer des systèmes d'IA sans supervision. Des groupes criminels pourraient aussi entraîner leurs propres modèles pour analyser des données illégales (optimisation du blanchiment de capitaux), automatiser des attaques, contourner la surveillance (communications cryptées et générées par l'IA), etc.
L'IA n'est qu'un outil pouvant être utilisé pour des tâches qui, en soi, ne sont pas illégales : analyse de données, optimisation logistique, reconnaissance de motifs. La mafia peut donc intégrer l'IA dans des activités d'affaires légales (façades d'entreprises, investissements) pour mieux masquer des opérations illicites, comme le blanchiment d'argent, le financement du terrorisme ou la gestion de chaînes d'approvisionnement clandestines.
L'utilisation de protocoles de communication cryptés et de réseaux anonymes permettrait à la mafia de partager des informations, des modèles d'IA ou des données traitées par l'IA sans être facilement interceptée ou identifiée. Les criminels utilisent des faux comptes, des VPN et ainsi de suite pour masquer leur identité. Certaines applications (comme la génération de textes ou de voix) peuvent être détournées sans alerter les plateformes.
La mafia, comme toute organisation sophistiquée, peut recruter ou contraindre des individus ayant des compétences pointues en informatique et en IA. Ces experts pourraient développer des solutions sur mesure ou adapter des outils existants pour les besoins spécifiques de l'organisation criminelle. L'IA peut ainsi être utilisée pour automatiser et améliorer les cyberattaques (rançongiciels, usurpation d'identité), ou encore servir à créer de faux documents (passeports, contrats), à perfectionner le hameçonnage sophistiqué (messages plus convaincants grâce au TALN), repérer des vulnérabilités (piratage automatisé via IA), autant d'activités difficiles à tracer lorsque les criminels utilisent des serveurs offshore ou des réseaux anonymes (Tor).
L'IA pourrait rendre toutes ces activités encore plus efficaces, complexes et difficiles à tracer. La législation autour de l'IA est encore en développement dans de nombreux pays. Les autorités de surveillance peinent à suivre le rythme des avancées technologiques et à comprendre toutes les implications des utilisations malveillantes de l'IA.
De plus, la nature même de l'IA, avec ses "boîtes noires" (où le fonctionnement interne des algorithmes est opaque), peut rendre difficile la détection d'une utilisation suspecte. Afin de recycler l'argent sale, les mafias se servent de startups légales créées ad hoc pour réaliser des investissements opaques ou des transactions cryptographiques combinées à l'IA pour en rendre le traçage complexe, voire quasi impossible.
Enfin, pour éviter d'attirer l'attention, la mafia pourrait utiliser l'IA pour traiter de petits volumes de données ou des opérations très ciblées, rendant leur détection par des systèmes de surveillance massifs plus difficile. Des dizaines d'exemples de scénarios réalistes sont possibles, inspirés des capacités actuelles de l’intelligence artificielle et des modes opératoires observés dans les organisations mafieuses modernes, en matière :
- de fraudes bancaires orchestrées par l’IA et de disparition de fonds : l’argent est immédiatement redirigé via plusieurs comptes-écrans, converti en cryptomonnaies et transféré hors d’atteinte (pays non coopératifs).
- de collectes de données via l’IA : les cybercriminels utilisent une IA d’analyse linguistique pour passer au crible des centaines d’appels d’entreprises disponibles en ligne (interviews, webinaires, messages vocaux professionnels). Ils peuvent extraire la voix d'un PDG ou d'un directeur financier (via des vidéos sur YouTube, LinkedIn, etc.) pour faire croire à leur interlocuteur qu'il parle directement avec son supérieur hiérarchique.
- de génération de deepfakes vocaux : avec ces extraits, ils génèrent une voix synthétique réaliste du PDG, capable de simuler une conversation téléphonique. L’IA peut imiter le ton, les pauses, les hésitations naturelles, ce qui rend la supercherie crédible.
- de préparation de scripts conversationnels : une IA conversationnelle (de type LLM) est entraînée à répondre en temps réel à un interlocuteur sur des sujets financiers ou RH. Elle est nourrie avec des mails volés (phishing ciblé) pour intégrer les éléments internes à l’entreprise (projets, noms, jargon).
- d'appels ciblés aux services comptabilité ou administratif d'entreprises : à 8h du matin, un employé reçoit un appel vocal du faux PDG lui demandant d’effectuer en urgence un virement international, en invoquant un rachat d’entreprise confidentiel. L’IA répond en direct aux questions de l’employé, avec assurance et détail, jusqu’à l’exécution du virement.
*
Comme on le voit, il suffit de mixer ces activités ensemble pour dégager d'immenses possibilités. Cela peut coûter très cher à développer, certes, mais s'il y a bien un problème que les mafias n'ont pas, c'est celui du manque de fonds : leurs ressources financières sont pratiquement illimitées... Aucun obstacle de nature économique ne saurait les arrêter.
Comment contraster cela ? Quelques axes d'intervention :
Renforcement des cadres réglementaires : l’EU AI Act pourrait être renforcé pour inclure des contrôles stricts sur les outils d’IA à haut risque, comme ceux utilisés pour la reconnaissance faciale ou la génération de contenu synthétique. Les autorités pourraient exiger une transparence accrue sur l’utilisation des API d’IA par des entités privées.
Amélioration des capacités de détection : développer des outils d’IA pour détecter les usages criminels, comme des algorithmes de détection de deepfakes ou d’anomalies dans les flux financiers. Utiliser des modèles prédictifs, comme celui proposé pour identifier l’infiltration mafieuse dans les municipalités italiennes, pour anticiper les activités criminelles.
Formation et ressources : former les forces de l’ordre à l’utilisation et à la détection des technologies IA, en partenariat avec des entreprises technologiques. Allouer des budgets pour des unités spécialisées dans la cybercriminalité liée à l’IA. Sensibiliser l'opinion publique...
Coopération internationale : les mafias opèrent à l’échelle mondiale (ex. : réseaux russes et italiens). Une coordination entre Europol, Interpol et les autorités nationales est essentielle pour traquer les réseaux transnationaux.
Etc.
Le problème est que, de plus en plus souvent, la politique fait exactement le contraire de ce qu'il faudrait faire, et semble travailler pour les mafias au lieu de les combattre ! En Italie, l'actuelle réforme Nordio (à laquelle et auquel Nicola Gratteri est farouchement opposé) interdit par exemple l'utilisation des chevaux de Troie pour infiltrer les organisations mafieuses, de même qu'elle restreint très fortement les écoutes en prétextant que les mafias modernes n'utilisent plus le téléphone !!!
Comme le dit si bien Gratteri, l'incompétence de certaines personnes qui occupent le pouvoir et des postes de responsabilités est gênante ! Lorsqu'ils se regardent dans la glace chaque matin, ils n'en croient pas leurs yeux ni leur cerveau de se dire : mais c'est vraiment moi qu'on a choisi pour ce poste ? Des complices, corrompus jusqu'à la moelle...
Dans le premier billet de ce diptyque consacré aux ambitions de Slator, nous avons abordé les intégrateurs de solutions linguistiques et nous sommes interrogés sur quelle autorité épistémique leur accorder. Cette question "épistémique" est de première importance en ce qu'elle touche à un enjeu éthique et professionnel majeur dans les flux de traduction hybrides IA + expertise humaine : comment répartir autorité épistémique et responsabilité finale entre les parties prenantes (IA, LSP, traducteurs humains) ?
À première vue l'autorité épistémique (à savoir la capacité d’un acteur à être reconnu comme source légitime de savoir dans un domaine donné) réside principalement dans l’expertise humaine, et donc la responsabilité finale est portée soit par le LSP, soit par le traducteur, soit par les deux. En dépit de toute sa puissance, l'IA ne peut (encore) assumer seule ni l’autorité ni la responsabilité. Une IA ne comprend pas ce qu’elle traduit : elle fonctionne par prédiction, sans intention ni conscience contextuelle. Elle peut fournir un contenu plausible mais erroné ou biaisé.
En d'autres termes, qui porte réellement la charge morale, légale ou professionnelle du contenu livré ? Qui est comptable d’une erreur (juridique, technique, communicationnelle) ? Dans le cas des plateformes techno-linguistiques, le problème ne se pose pas, puisque selon Slator, elles ne fournissent aucun service de vérification ou d'amélioration de la qualité linguistique, ni ne garantissent la qualité du contenu produit. Ce rôle incombe aux utilisateurs ou aux prestataires externes impliqués.
Nous faisons nos adieux aux Fournisseurs de services linguistiques (LSP / Language Service Providers) et aux Systèmes de gestion des traductions (TMS / Translation Management Systems) (...), et souhaitons la bienvenue aux Intégrateurs de solutions linguistiques(LSI / Language Solutions Integrators) et aux Plateformes techno-linguistiques (LTP / Language Technology Platforms).
Sous-entendu : les LSI remplacent les LSP, et les LTP les TMS. Pour autant TMS et LTP ne sont pas interchangeables. Tandis que les systèmes de gestion des traductions étaient - sont - internes aux LSP, les plateformes techno-linguistiques fonctionnent en mode SaaS, ou mieux, PaaS, Platform as a Service, une espèce de boîte à outils à laquelle vous vous abonnez et utilisez comme bon vous semble, tout en gardant la main et la responsabilité de ce que vous produisez avec.
De même, si vous souhaitez analyser les sentiments de 10 000 avis clients multilingues ou résumer des documents légaux et les classifier par type, vous ne le ferez pas avec un TMS, mais avec une LTP si. En outre, les deux sont interopérables, par exemple en connectant un TMS à une LTP, ou en soumettant les données d'un TMS (mémoires, glossaires, etc.) à une LTP pour entraîner un grand modèle de langage (LLM) sectoriel.
C'est l'une des raisons pour lesquelles je pense que le quart actuel des LSP qui développent et personnalisent déjà leurs propres LLM (28% en 2025 selon Nimdzi), est destiné à augmenter notablement dans les mois et années à venir. L'IA révolutionne vraiment TOUT, à TOUS les niveaux !
Selon Benjamin Faes, CEO de RWS, cette révolution du contenu multilingue se traduit par le fait qu'en seulement 18 mois, avec l'émergence de l'IA générative, nous avons produit une quantité de contenu équivalente à celle créée sur Internet au cours des 30 dernières années ! Qui était déjà exponentielle par rapport à l'ensemble du contenu créé durant TOUT le passé de l'humanité...
D'où les difficultés des entreprises, qui peinent à suivre le rythme des chamboulements en cours et à prendre les bonnes décisions sur la manière de générer leur contenu, les étapes à automatiser et la manière d’interagir avec leurs publics. Exemple : 20 % des utilisateurs d’Internet sont chinois, mais seul 1 % du contenu en ligne est en chinois.
Toutefois, le passage qui me frappe le plus, dans l'intervention de Benjamin Faes, est celui sur la nécessité de faire évoluer le langage (RWS is prompted to adopt some new terminology) ! RWS n'est plus un LSP, mais un partenaire de solutions de contenu (content solution partner), pour générer un meilleur contenu, plus intelligent et évolutif, pour transformer le contenu existant afin qu'il résonne et se connecte avec les publics du monde entier, et enfin pour le protéger, de même que les données et les idées. Là encore, "solutions"...
Partie qui me touche de plus près :
Formerly known as translators(!), these professionals are now referred to as “language specialists” or “linguistic specialists,” which Faes said better represents the work they do, which includes reading, changing, and adapting content.
Je traduis :
Anciennement connus sous le nom de traducteurs(!!!), ces professionnels sont désormais des « spécialistes de la langue », des « experts linguistes », ce qui reflète mieux leur travail, qui comprend la lecture, la modification et l’adaptation de contenu.
Petit bémol : promouvoir leur qualification, c'est bien, mettre à jour leur rémunération (qui a déjà été divisée par 3 ou 4...) ce serait mieux ! Et cohérent...
D'autant plus que la langue est l'origine du contenu, selon Faes, qui conclut ainsi : « It is not the translation that’s important. It’s the connection that we make around the globe. »
Que j'adapterais ainsi : « L’essentiel n’est pas la traduction, mais les liens que nous créons partout dans le monde, les ponts que nous construisons entre les langues et les cultures. »
*
Après Phrase, RWS est le deuxième grand groupe qui reprend les idées de Slator et met en avant la nécessité de refondre le contenu et le langage en surfant sur l'onde puissante de l'IA. Probablement à suivre...
Selon la définition originale donnée par Slator, les intégrateurs de solutions linguistiques (LSI en anglais), idéalement destinés à remplacer les fournisseurs de services linguistiques (les fameux LSP), sont censés orchestrer la mise en commun de technologies linguistiques, d'intelligence artificielle et d’expertise humaine afin de fournir des solutions de contenu multilingue adaptées aux exigences de leurs clients.
Pour l'heure, tout juste une semaine après leur acte de naissance, les LSI (Language Solutions Integrators) sont encore totalement interchangeables avec les LSP (Language Service Providers), et il n'y a aucune raison objective pour laquelle les petits derniers devraient faire un meilleur travail que les premiers. Changer d'appellation est purement et simplement un acte de volonté qui, à lui seul, ne suffit certes pas pour faire évoluer une industrie !
Il faut d'abord comprendre si l’implantation du sigle et du concept - à savoir leur capacité à s’ancrer durablement dans l’usage - prendra et correspondra à une réalité sous-jacente : combien des actuels LSP jugent-ils ce changement pertinent et partagent-ils le constat qu'ils sont devenus obsolètes, combien d'intervenants du secteur des langues et de la traduction adopteront-ils l'idée d'un tel nouvel acteur - ou d'un autre - sur le marché et d'un repositionnement majeur indispensable pour refléter les avancées technologiques en cours ?
Du reste, pourquoi réinventer un secteur industriel ? D'emblée, on change un nom qui en donne une image vieillie, dépassée, pour sortir des clichés, voire redonner de la légitimité, refléter une réalité en pleine évolution, attirer de nouveaux talents (ou investisseurs), accompagner la diversification ou la mutation du métier et de ses modèles économiques, stimuler la curiosité, renforcer la communication stratégique, raconter un nouveau storytelling, fédérer une communauté autour d'un nouveau projet, etc., autant d'élements qui sont souvent la condition sine qua non pour redevenir audible, pertinent et crédible auprès de toutes les parties prenantes de l'écosystème.
Condition nécessaire mais pas suffisante, toutefois ! Il faudrait déjà faire consensus, à la fois sur le constat et sur les moyens de faire évoluer les choses dans le bon sens. Or entre les trois principales sociétés d'études de marché en traduction : Slator, CSA Research et Nimdzi Insights (ces deux dernières ayant été créées avec la contribution décisive de l'ami Renato Beninatto), les avis divergent sur comment nommer cette "nouvelle" réalité.
Nous faisons nos adieux aux Fournisseurs de services linguistiques(LSP / Language Service Providers) et aux Systèmes de gestion des traductions(TMS / Translation Management Systems) - en vigueur depuis environ deux décennies mais désormais dépassés, vu les progrès considérables du secteur au cours des trois dernières années, notamment depuis l’avènement de l’IA, et, par conséquent, l'exigence d'opérer un repositionnement majeur pour refléter ces avancées -, et souhaitons la bienvenue aux Intégrateurs de solutions linguistiques(LSI / Language Solutions Integrators) et aux Plateformes techno-linguistiques (LTP / Language Technology Platforms).
Pour Nimdzi, l'évolution du contracted language professional (CLP) au massive multiple language services provider (MMLSP) reste quand même centrée autour des LSP :
Quant à CSA, nous nous dirigeons plutôt vers des Content-Focused Knowledge Processing Outsourcers (KPOs) et des Global Content Service Providers (GCSPs), où la notion de langue s'intègre dans celle de contenu global, mondialisé, à l'horizon 2030 :
Pour autant, le projet le plus ambitieux me semble celui de Slator (en supposant qu'ils auront la force de leurs ambitions...), vu qu'il se propose de relancer toute l'industrie par un rebranding global, en remplaçant les LSP (jugés obsolètes) (à raison selon moi) par les intégrateurs de solutions linguistiques (LSI) et en repositionnant l'industrie par rapport à l'intégration toujours plus poussée IA-expertise humaine. Nous verrons quelles seront leurs prochaines initiatives pour faire vivre leur idée, si elles sont suivies d'effets, et la façon dont elle sera accueillie et promue par les parties prenantes, dont les traducteurs eux-mêmes.
*
En attendant, une petite analyse du changement de nom s'impose :
« Fournisseur » devient « Intégrateur »
« Services linguistiques » devient « Solutions linguistiques »
Intégrateur
L'intégrateur de solutions linguistiques - voire le concepteur-intégrateur -, s'apparente davantage à un architecte plutôt qu'à un simple fournisseur de services linguistiques, en mettant l'accent sur le côté ingénierie et la portée stratégique de ce qu'il propose à son client, dont il évalue les besoins linguistiques complexes (multilinguisme, conformité, accessibilité, SEO, etc.), pour concevoir une solution sur mesure combinant technologies (TAO, TMS, IA), ressources humaines (traducteurs, réviseurs, spécialistes métiers) et workflows (publication, gestion documentaire, ...) ; puis il intègre ces éléments dans les systèmes du client (CMS, CRM, plateformes e-commerce, etc.) et pilote la performance linguistique en termes de qualité, cohérence, délais, budget, évolutivité...
Dans ce contexte, comme nous l'avons déjà vu pour la localisation, la traduction n'est qu'une brique - quand bien même essentielle - de l'ensemble de la solution offerte, mais une brique où l'intégration, à son tour, joue un rôle primordial. Et notamment l'intégration de l'IA tant dans le processus d'automatisation de la traduction que dans le contrôle qualité de la post-édition, d'une part, et l'intégration IA-expertise humaine de l'autre.
Lors d'une post-édition de traduction automatique pilotée par l’IA (AI-Driven MTPE), le processus
combine les capacités de la traduction automatique (TA) avec des outils d’intelligence artificielle avancée, dans un flux de traduction hybride où l’IA génère une première version traduite automatiquement (éventuellement via un moteur IA entraîné sur un corpus spécifique), encore mieux si la TA s'applique à un contenu source ayant fait l'objet d'un prétraitement automatisé (normalisation, segmentation, extraction de balises et d’éléments non traduisibles, application de règles de pré-édition automatisées [regex, heuristiques métier]).
Le rapport Nimdzi 2025 sur l'état de l'industrie des services linguistiques nous donne une indication de la manière dont les LSP utilisent actuellement l'IA :
68% ont recours à des solutions génériques comme ChatGPT, Claude.ai, Gemini, Copilot ou autres
55% se connectent à des grands modèles de langage (LLM) via des API
51% utilisent des solutions d’IA générative sous forme de plug-ins et/ou intégrées nativement à leurs plateformes
29% font appel à des prestataires tiers pour des services pilotés par l’IA
28% développent et personnalisent eux-mêmes des grands modèles de langage (LLM)
C'est ce dernier pourcentage qui m'interpelle : en gros, un quart des LSP développent déjà leurs propres LLM, un chiffre destiné à progresser notablement dans les mois et années à venir.
*
À ce stade, dès lors qu'ils seraient opérés par les mêmes acteurs, je suis contraint de faire un parallèle entre TM (mémoires de traduction) et LLM (grands modèles de langage), deux technologies totalement différentes mais avec plusieurs points communs, dont un, primordial, le concept GIGO : Garbage In, Garbage Out ! En clair, aussi bien les TM que les LLM sont fortement dépendants du choix et de la qualité des données d'origine, car dans les deux cas, des données d’entrée erronées, biaisées ou mal structurées produisent des résultats erronés, biaisés ou mal structurés (en gros, c'est la traduction parlante et odorante de GIGO : si tu as de la merde en entrée, tu as de la merde en sortie).
Dès 1864, à la question « Si vous saisissez des chiffres erronés dans la machine, en obtiendrez-vous de bonnes réponses ? », Charles Babbage, polymathe et pionnier de l'informatique, s'étonnait face à une telle incompréhension logique de base : une machine, ou tout système formel, ne peut pas corriger une erreur conceptuelle ou factuelle dans les données d’entrée. Elle ne fait qu’exécuter un traitement déterministe sur ce qu’on lui donne. Ainsi, de façon intemporelle, il nous rappelle que ni l’intelligence artificielle ni aucun système algorithmique ne peut réparer une erreur conceptuelle humaine en amont. La qualité des sorties dépend directement de la qualité des entrées. (Source, p. 67 du PDF, Curious questions)
Cela fait des années que je travaille avec des TM fournies par les LSP, et je n'en ai jamais trouvé aucune d'une qualité irréprochable, c'est le moins qu'on puisse dire : incohérences à tous les niveaux... Donc si c'est cette "expertise" qu'ils comptent répliquer sur les LLM, on n'a pas le cul sorti des ronces !
Il y a un deuxième point commun, probablement encore plus important que le premier, auquel il est cependant étroitement lié : quelle valeur épistémique leur accorder !? Selon l’approche la plus courante dans la littérature philosophique contemporaine, l’adjectif « épistémique » désigne ce qui a trait à la représentation juste ou fidèle de la réalité.
Tariq Krim nous rapporte dans sa récente conversation avec Meredith Whittaker, présidente de la fondation Signal, que celle-ci appelle à lutter contre « l’autorité épistémique » des plateformes qui prétendent en savoir plus que nous sur nous-mêmes, écrivent nos récits, fixent les cartes sur lesquelles se construisent nos vies...
Or reconnaître aux plateformes une autorité épistémique signifie qu’elles façonnent la perception de ce qui est crédible en jouant un rôle central dans la manière dont les gens accèdent au savoir (non pas parce qu’elles produisent directement du savoir, mais parce qu’elles en organisent la visibilité et la diffusion), trient ce qu’ils jugent vrai ou faux, légitiment certains discours plutôt que d'autres, etc.
Un rôle qui dépasse largement la simple mise en relation entre contenus et utilisateurs. En filtrant, hiérarchisant, promouvant ou invisibilisant certains discours, les plateformes redessinent les contours mêmes de la connaissance accessible. Elles deviennent des intermédiaires cognitifs, souvent invisibles, via des choix techniques (personnalisation, engagement, viralité) qui ont des effets profonds sur les personnes.
Toutefois cette "autorité" s'exerce sans les garanties traditionnelles du champ scientifique ou journalistique (collégialité, transparence des sources, responsabilité éditoriale), en étant déléguée à des algorithmes, des dynamiques de popularité, voire des politiques de modération opaques. Question : à quelles conditions une telle autorité peut-elle être légitime ? Par conséquent interroger l’autorité épistémique des plateformes, c’est poser une question politique autant qu’intellectuelle : qui décide de ce qui mérite d’être vu, su, cru ?
Maintenant, avec l’essor fulgurant de l’intelligence artificielle générative, les grandes plateformes technologiques ne sont plus seulement des hébergeurs ou des diffuseurs d’information : au moyen de modèles capables de générer des textes, des images, voire des raisonnements de plus en plus cohérents, elles deviennent des producteurs actifs de savoirs simulés.
Dans ce nouveau régime informationnel, leur "autorité épistémique" prend une dimension inédite : ce n’est plus uniquement l’accès au savoir qui est filtré, mais la forme même que prend la connaissance produite par les machines. Lorsqu’un assistant IA répond à une question, il ne cite pas toujours ses sources, et il n’est pas aisé de distinguer ce qui relève d’une synthèse fondée, d’un biais algorithmique ou d’une approximation.
Cette délégation implicite de la vérité à des systèmes opaques pose un problème majeur de responsabilité épistémique. Les plateformes ne revendiquent que partiellement la maîtrise du contenu généré par leurs modèles, tout en accumulant un pouvoir considérable sur ce que des millions d’utilisateurs vont percevoir comme vrai, probable ou crédible.
D'où le risque d’une normalisation silencieuse : plus les IA génératives sont perçues comme compétentes, plus leur autorité est acceptée sans examen critique. Cependant, cette autorité n’est ni neutre ni universelle : elle est modelée par les données d’entraînement, les objectifs commerciaux et les contraintes techniques de chaque plateforme. La boucle est bouclée : Garbage in, Garbage out...
Donc, appliquée à la traduction automatique à l'ère de l'IA, quelle peut-être l'autorité épistémique de plateformes traductionnelles ne se contentant plus d’outiller les traducteurs, mais d'en devenir les co-producteurs invisibles ? Un glissement qui soulève une question essentielle : à qui accorde-t-on la légitimité de dire ce que signifie un texte ?
Autrement dit, qui détient l’autorité épistémique dans l’acte de traduction ? Traditionnellement, cette autorité appartenait au traducteur humain, fondée sur une expertise linguistique, culturelle et contextuelle. Mais à l'heure où les plateformes s’imposent comme des intermédiaires cognitifs puissants, capables de produire des traductions fluides, plausibles, souvent même acceptées sans vérification approfondie ?
L’usage massif de ces outils en entreprise, dans les administrations ou même chez les professionnels, témoigne d’un transfert progressif de confiance vers des systèmes opaques, entraînés sur des corpus inconnus, selon des logiques d’optimisation qui ne sont pas celles de la fidélité ou de la précision. Avec quelques risques sous-jacents :
Naturalisation des erreurs : une formulation plausible est perçue comme correcte
Effacement du traducteur : son rôle se réduit à un contrôle qualité subordonné, de plus en plus mal payé
Perte de réflexivité : les décisions traductives deviennent mécaniques, sans distance critique, ou si peu...
Or, la traduction n’est pas une simple opération technique. C’est un acte interprétatif, culturellement situé, politiquement chargé. Confier ce pouvoir à des machines — ou aux entités qui les opèrent — sans discussion, c’est accepter que la voix des plateformes redéfinisse silencieusement la norme du sens. Il est donc urgent de repenser la place du traducteur non pas comme un opérateur marginal de l’IA, mais comme un expert en position d’interroger ses productions, de les encadrer, de les corriger et de leur résister.
Condition sine qua non pour que l’autorité épistémique redevienne un acte professionnel conscient, et non pas un automatisme vide de sens.
C'est ainsi que Slator prévoit l'Expert-in-the-Loop (EITL), où une approche semi-automatisée de production de contenu multilingue serait censée s’appuyer sur l’expertise humaine, introduite dans la boucle pour garantir un résultat final de haute qualité : très bien dans le principe, pratiquement totalement absente dans la réalité (pour l'instant du moins...) !
*
Solution
Dans l'esprit du rebranding de l'industrie voulu par Slator, « Solution » remplace « Service ». Pourquoi ?
Souvent employés de manière interchangeable dans divers secteurs, les deux termes ont pourtant des nuances différentes. La notion de "services" est moins large et plus connotée "exécution", là où une offre orientée "solutions" promet au client de résoudre ses problèmes à 360°. Il y a trois types de solutions :
solution 100% machine (entièrement automatisée, peu épistémique)
solution hybride homme+machine (curseur réglable à volonté)
Le repositionnement du secteur s'articule surtout autour de ce troisième axe, où, loin de remplacer l'humain, l'IA collabore avec lui (à moins que ce ne soit le contraire ;-). Je développerai cela dans un deuxième billet sur les plateformes dédiées aux technologies linguistiques.
Ce billet est le P.S. aux 4 blocs sur l'intelligence artificielle, durant la rédaction desquels je n'ai cessé un seul instant de m'interroger sur ce qu'est véritablement l'IA et sur comment elle fonctionne. Je vais tenter de fournir ici des réponses simples à ces questions compliquées.
En général, quand on ne connaît pas le sens d'un terme, on ouvre un dictionnaire. Au hasard, le Robert :
Intelligence artificielle (IA)
ensemble des théories et des techniques développant des programmes informatiques complexes capables de simuler certains traits de l'intelligence humaine (raisonnement, apprentissage…).
Intelligence artificielle générative, capable, à partir de grands volumes de données (textes, sons, images…), de dégager des modèles et d'en générer de nouveaux, ou d'améliorer les modèles existants.
En clair, l'IA développe des systèmes intelligents capables de fonctionner en mode autonome et d'interagir avec leur environnement, en se basant sur trois piliers conceptuels : penser (la pensée, l'analyse et le raisonnement), savoir (le savoir, l'apprentissage, la mémorisation et la gestion des données) et agir (l'action, l'interaction, l'exécution, l'application concrète). Ces trois capacités essentielles forment une boucle : le savoir alimente la pensée, la pensée guide l’action, tandis que les retours d’expérience (rétroaction) vont enrichir à leur tour le savoir.
Chacune de ces capacités, qui simule diverses facettes de l’intelligence et de la cognition humaines et s'en inspire, se traduit par des mécanismes algorithmiques, des modèles mathématiques et autres techniques spécifiques.
Dans mon deuxième bloc sur l'IA, j'ai inséré un diagramme simple présentant le fonctionnement d'une intelligence artificielle en quatre étapes, qui se superposent aux 3 piliers conceptuels et à la boucle de rétroaction :
1. Analyse de grandes quantités de données saisies (penser)
L'IA n'a aucune capacité de "penser" par elle-même si elle ne se fonde en amont sur des données pour l'alimenter et la former. Lorsqu'on parle d'intelligence pour une machine, un système ou autre, il faut avant tout évoquer une aptitude à comprendre, toute « machine intelligente » dépendant de facto d'une programmation pointue, permettant d’effectuer des tâches préformatées... Plus la programmation est élaborée, plus la machine résulte « intelligente »...
Les données sont le carburant de l'IA, qui s'en nourrit voracement, vu les quantités énormes dont elle a constamment besoin pour apprendre, en les traitant et les organisant... Elles sont essentielles pour entraîner les modèles, sans données l'IA ne "pense" pas ! En revanche, plus elle en a, plus elle est capable de "penser". Les volumes nécessaires peuvent aller de 1 Go à 100 Go pour des modèles intermédiaires, voire de 100 To à plusieurs Po (à la louche, 1 Pétaoctet = 1 milliard de livres...) pour les grands modèles de langage (LLM / Large Language Model).
Dans un premier temps, la collecte des données consiste à rassembler différentes informations (textes, images, sons, etc., bien que ce billet se limite au seul volet textuel). Et qui dit texte (et mots écrits) dit traitement du langage naturel (NLP) multilingue, pour permettre à l’IA de comprendre et d'interagir ensuite, en combinant, entre autres, analyse grammaticale, apprentissage profond (deep learning) sur de vastes corpus, reconnaissance du contexte et des intentions. Toutefois, l'ensemble de ces données provenant de sources diverses, elles sont toujours multi-formats, non structurées, d'où la nécessité de les "tokéniser" en vue de standardiser un corpus.
En sécurité informatique, la tokénisation est le procédé permettant de remplacer une donnée critique par un élément équivalent (un token, ou jeton) qui n’aura aucune valeur intrinsèque ou signification exploitable une fois sortie du système, d'où la protection des données (sensibles) d'une entreprise. En intelligence artificielle, tokéniser consiste à décomposer le texte que le modèle traitera en unités/entités plus petites (tokens, ou symboles) : selon la méthode utilisée, il peut s'agir par exemple de mots, de sous-mots ou de caractères. Prenez le mot "anticonstitutionnellement" :
tokénisé par mot : "anticonstitutionnellement" --> 1 mot = 1 token
tokénisé par caractères : "a" "n" "t" "i" "c" "o" "n" "s" "t" "i" "t" "u" "t" "i" "o" "n" "n" "e" "l" "l" "e" "m" "e" "n" "t" --> 25 caractères = 25 tokens
Chaque token est encodé ensuite (en une valeur numérique, un identifiant unique) pour que le modèle d'IA puisse le traiter. La tokénisation par caractères est plus flexible, plus simple à mettre en œuvre (mais plus gourmande en ressources, et donc plus coûteuse), sans règles complexes, elle permet de capturer la structure des mots à un niveau plus granulaire et de gérer tous les langages, puisque tous utilisent des caractères (idéal pour les modèles multilingues, les langues peu représentées, les mots inconnus).
Par contre il peut y avoir une perte de structure sémantique, elle peut être moins efficace pour saisir le sens global. Une option pour l'utilisateur, selon ses besoins spécifiques, pourrait donc être de retenir une approche hybride davantage équilibrée, combinant caractères et mots (ou sous-mots). Quoi qu'il en soit, la tokénisation est un processus clé permettant de convertir le langage humain en un format exploitable par les machines.
Quant à standardiser le corpus, cela signifie transformer
les données brutes d'entrée d'un modèle d'IA pour qu'elles aient des
caractéristiques similaires et cohérentes. C'est une étape cruciale du prétraitement des données, avant d'entraîner le modèle. Entraîner le modèle revient à analyser les données pour y identifier des motifs et des relations.
Les motifs (patterns, en anglais) sont des "régularités", des caractéristiques récurrentes dans les données. En phase d'apprentissage, l’IA extrait ces motifs en s’entraînant sur de nombreux exemples pour pouvoir ensuite classer ou prédire correctement de nouveaux cas, ce qu'on appelle l'inférence. La compréhension des relations contextuelles, entre mots d'une séquence, y compris éloignés, entre phrases, sémantiques ou syntaxiques complexes est cruciale pour une IA, notamment pour mieux comprendre comment répondre aux questions qui lui sont posées.
C'est la capacité de raisonner de manière multimodale (en intégrant des informations provenant de différentes modalités sensorielles, textes, images, sons, etc.), causale et flexible d'une IA, qui ne peut pas aller au-delà des corrélations apprises à travers les données. Tout au moins jusqu'à présent. Car avec l'arrivée en force des agents ou du protocole A2A (Agent to Agent) de Google et du protocole MCP d'Anthropic, les intelligences artificielles vont s'autonomiser toujours davantage, en communiquant et en collaborant de façon fluide directement entre agents, sans plus passer par aucun dialogue avec des opérateurs "humains". Ce qui soulève quelques problèmes éthiques, hors du périmètre de ce billet.
Le raisonnement conduit à la prise de décisions, logiques et non hallucinées espérons-le, à la résolution des problèmes, aux inférences (prédictions sur de nouvelles données en utilisant les connaissances acquises lors de l'entraînement du modèle), à la planification d'actions futures, etc. Tout cela grâce aux algorithmes... [Début]
*
2. Détection des constantes au moyen d'algorithmes (savoir)
Toute IA se fonde sur des algorithmes et des modèles mathématiques sophistiqués. La différence entre les deux est que le modèle est le résultat ou la structure mathématique qui encapsule la connaissance apprise à partir des données, tandis que l’algorithme est le processus qui permet d’obtenir ce modèle et de l’utiliser. Selon la thèse de Church Turing, s'il existe un algorithme pour résoudre un problème, un ordinateur peut être programmé pour implémenter cet algorithme :
l'algorithme consiste en un ensemble fini d'instructions simples et précises qui sont décrites avec un nombre limité de symboles ;
l'algorithme doit toujours produire le résultat en un nombre fini d'étapes ;
l'algorithme peut en principe être suivi par un humain avec seulement du papier et un crayon ;
l'exécution de l'algorithme ne requiert pas d'intelligence de l'humain sauf celle qui est nécessaire pour comprendre et exécuter les instructions.
Vous pouvez avoir jusqu'à une cinquantaine d'algorithmes différents pour construire et entraîner un grand modèle de langage, selon la complexité du modèle et de l’application. Ces algorithmes incluent le prétraitement (tokenisation, normalisation), l’architecture (Transformers), l’optimisation (Adam), la régularisation (dropout), l’évaluation (validation croisée), et le post-traitement (quantification, fine-tuning). Ici mon but n'est pas de rentrer dans les détails techniques (nous sommes dans de la très haute ingénierie), mais juste de donner une idée de la complexité du processus.
Et lorsque le modèle d'IA compte des centaines de milliards de paramètres et plusieurs milliards de mots (l'entraînement de GPT-3 a porté sur 175 milliards de paramètres, et GPT-4 entraîne son modèle sur des milliards de textes - sans divulguer exactement la quantité ni combien de paramètres - pour prédire le mot suivant...), qu'ils soient généraux ou spécialisés, les corpus leur servant d'entraînement sont proportionnés :
C4 (Colossal Clean Crawled Corpus), de Google, un corpus massif basé sur des données extraites du Web, nettoyées, représente environ 750 Go de texte brut, soit plusieurs centaines de milliards de mots, y compris en versions multilingues (mC4).
arXiv a des dizaines de milliards de mots, environ 1,5 million d’articles scientifiques en libre accès (principalement informatique, physique, mathématiques)
Les datasets (ou jeux de données) de Twitter (désormais X) comptent des milliards de messages
CC-100 : un corpus massif issu de Common Crawl, couvrant une centaine de langues avec 294,58 milliards de tokens, idéal pour les tâches multilingues.
OPUS (Open Parallel Corpus), qui collecte des corpus parallèles pour la traduction (incluant des sous-titres, des documents officiels, des textes littéraires) rassemble des milliards de paires de phrases, alignées, dans plus de 100 langues.
Quant aux milliards de paramètres au cœur des performances des IA modernes, avec des perspectives d’optimisation croissantes et rapides, il s'agit pour le plus des poids numériques (et des biais) en virgule flottante, stockés dans des matrices au sein des couches d’un réseau neuronal (comme un Transformer). Ils encodent les connaissances apprises à partir des données massives et sont essentiels pour l'apprentissage du réseau et la modélisation des fonctions complexes.
À titre d'anecdote (!), l'IA chinoise Wu Dao 2.0, la plus puissante à ce jour, tourne avec 1750 milliards de paramètres... Ceci n'est qu'un bref exemple de fonctionnement et d'une partie des ressources nécessaires, qui suffit cependant à donner un aperçu de l'énormité de la chose. Qui doit forcément reposer sur des puissances de calcul à la hauteur !
Dans mon précédent billet sur « La quatrième révolution civilisationnelle : l'informatique quantique », j'indiquais que l'informatique "classique" (très haute performance, quand même) était déjà en mesure d'effectuer 125 millions de milliards d'opérations en virgule flottante par seconde (125 pétaflops) de performances maximales grâce à 4000 milliards de transistors et 900 000 cœurs de calcul optimisés pour l'IA :
Le système CS-3 est conçu pour entraîner des modèles de langage 10 fois plus grands que GPT-4 et Gemini, pour ne citer qu'eux. Il s'appuie pour cela sur un important système de mémoire pouvant atteindre 1,2 pétaoctet. Par ailleurs, 24 000 milliards de modèles de paramètres peuvent être stockés dans un seul espace mémoire logique sans partitionnement ni remaniement, assure Cerebras. (...) Les configurations compactes à quatre systèmes permettent d'affiner des modèles de type 70B en une journée, tandis qu'à grande échelle, en utilisant 2048 systèmes, Llama 70B peut, par exemple, être entraîné à partir de rien en une seule journée.
(Source : L'Usine digitale). Où 70B signifie 70 milliards de paramètres...
Évidemment, plus les capacités des processeurs sont élevées, plus ces milliards de paramètres et d'opérations ne prennent que quelques secondes pour être traités ! Les processeurs matures actuellement utilisés, tels que GPU (jusqu’à 30 téraFLOPS pour un NVIDIA A100) ou TPU (180 téraFLOPS par module TPU), seront largement inférieurs aux nouveaux processeurs photoniques lorsque ceux-ci auront atteint leur maturité, ce qui n'est pas encore le cas, mais les résultats annoncés sont ... (je vous laisse remplir avec le qualificatif qui convient !) :
Le processeur photonique peut fonctionner (avec des erreurs intermittentes) à une fréquence d’horloge de 2 GHz, soit 262 000 milliards d’opérations adaptatives en virgule flottante par blocs de 16 bits – ABFP16 – par seconde.
Ces interactions sont incroyablement complexes et peuvent prendre de nombreuses formes différentes, ce qui signifie qu'une prédiction précise du comportement d'une molécule sur la base de sa structure nécessite d'énormes quantités de calculs.
Il est impossible de le faire manuellement, et l'ampleur du problème est également trop importante pour les ordinateurs classiques actuels. En fait, on estime que la modélisation d'une molécule de seulement 70 atomes prendrait jusqu'à 13 milliards d'années à un ordinateur classique. (...)
Les ordinateurs quantiques ont toutefois le potentiel de résoudre un jour le problème de la simulation moléculaire en quelques minutes.
Avec l'informatique classique, nous avons déjà une idée des délais de développement d'un nouveau médicament (entre 12 et 15 ans), et de l'ambition des grands laboratoires de réduire cette période de moitié grâce à l'IA. Donc, dans l'attente de la suprématie quantique, et bien qu'en partie le quantique soit déjàopérationnel, contentons-nous de ce qui existe actuellement, et ce n'est pas peu ! 😀
L'IA agentique est déjà réalité, et dans la capacité d'interaction de l'IA avec son environnement et d'exécuter des actions physiques ou numériques en vue d'atteindre divers objectifs, on pense souvent au contrôle de la robotique, aux systèmes et véhicules autonomes (voitures, drones, taxis...), ou encore à l'automatisation via des agents logiciels. C'est ce dernier volet que je souhaite aborder ici.
Où l'on entend par automatisation les programmes et entités logicielles, autonomes (à savoir prenant des décisions sans intervention) ou semi-autonomes (qui nécessitent la supervision d'un opérateur), souvent basés sur des LLM, qui exécutent des tâches complexes (traduction multilingue, analyse scientifique, gestion industrielle) avec un minimum d’intervention humaine :
La prise de décision permet de choisir l'action optimale en fonction de l'objectif fixé
L'interaction physique contrôle les dispositifs pour effectuer des tâches en réel
L'interaction numérique gère les interfaces utilisateur, les robots conversationnels ou les systèmes automatisés
L'adaptabilité permet d'ajuster les actions en temps réel selon les changements dans l’environnement
La capacité d'action d'une IA implique donc une prise de décisions basées sur sa "pensée" et son "savoir", chaque action lui permettant en retour d'obtenir davantage d'informations sur l'environnement, pour mieux réagir aux nouvelles situations et adapter ses actions selon les changements ou les objectifs, y compris l'apprentissage de nouvelles tâches et l'ajustement en temps réel de ses stratégies. Par conséquent les résultats génèrent au fur et à mesure de nouvelles connaissances, dans une boucle de rétroactions et d'adaptation. [Début]
*
4. Apprentissage et amélioration des performances (rétroagir)
Une IA robuste et polyvalente est capable d'équilibrer ces trois dimensions, interconnectées : penser, savoir, agir. Dans ce cadre, l’apprentissage par renforcement (Reinforcement learning) permet de développer des algorithmes plus efficaces pour explorer et exploiter les différents environnements, ou de simuler des environnements riches pour entraîner les IA à la gestion de scénarios complexes.
À ce type d'apprentissage s'ajoutent deux sortes de rétroactions : le retour d'informations par l'humain (RLHF / Reinforcement Learning from Human Feedback), et le retour d'informations par (une ou plusieurs) IA (RLAIF / Reinforcement Learning from AI Feedback) :
Les avantages du RLHF sont les suivants
Alignement du modèle amélioré sur les préférences humaines : avantage fondamental, qui permet aux LLM de comprendre et de générer des réponses non seulement grammaticalement correctes mais aussi utiles, pertinentes, inoffensives et conformes aux valeurs humaines.
Meilleures performances sur les tâches complexes et nuancées : le feedback humain aide le modèle à gérer des tâches qui impliquent des préférences, des jugements ou des valeurs subtiles, chose essentielle pour les applications conversationnelles ou la création de contenu.
Réduction des comportements indésirables : crucial pour minimiser la génération de contenus biaisés, toxiques, dangereux, factuellement incorrects (hallucinations) ou répétitifs. Les évaluateurs humains peuvent pénaliser les réponses non vérifiables.
Expérience utilisateur améliorée : les modèles affinés grâce au RLHF offrent des interactions plus naturelles, intuitives et personnalisées, notamment via les préférences utilisateurs.
Adaptabilité et amélioration continue : grâce au processus itératif du RLHF, les modèles s'adaptent et s'améliorent continuellement en fonction des interactions des utilisateurs et des nouveaux retours.
Efficacité accrue pour les paramètres complexes : le feedback humain est plus efficace que des règles ou des métriques techniques pour des paramètres d'entraînement subjectifs (comme l'ambiance d'un texte ou la créativité d'une histoire).
Les inconvénients
Coût et intensité en ressources humaines : collecter les données de préférences humaines est extrêmement coûteux, chronophage et laborieux, en exigeant une grande quantité de jugements humains de haute qualité. Recruter, former et gérer les évaluateurs est à la fois un défi logistique et humain, et un surcoût financier.
Biais du feedback humain : les jugements humains sont intrinsèquement subjectifs et peuvent être influencés par les préférences, les valeurs, les expériences, voire les biais culturels des évaluateurs. Sans oublier les incohérences, ou parfois la malveillance des évaluateurs, qui dégradent la qualité du feedback. Il est pour le moins nécessaire d'avoir un pool d'évaluateurs diversifié.
Difficultés de généraliser à de nouveaux contextes : il se peut que le modèle rencontre des contextes ou des prompts (invites) inattendus, pour lesquels il n'a eu aucun feedback direct. Dans ces cas-là, la robustesse du modèle peut montrer ses limites et conduire à des "hallucinations", des comportements indésirables.
Complexité et instabilité de l'entraînement : le processus de conception d'une fonction de récompense* efficace et stable peut s'avérer opaque et insuffisant (imaginez le cas d'un évaluateur humain répondant systématiquement "Je ne sais pas" pour éviter tout risque de mauvaise note). Cela peut parfois rendre le comportement du modèle difficile à comprendre.
Risques de sur-alignement et manque de créativité : si le modèle est trop fortement aligné sur les préférences moyennes des évaluateurs, il peut devenir trop "prudent" ou "générique", et risque de perdre une partie de sa créativité, de sa diversité ou de sa capacité à explorer des réponses nouvelles et inattendues.
Contournement des mesures de sécurité (jailbreaking) : le RLHF vise à rendre les modèles plus sûrs, entraînés pour ne pas générer de contenu nocif en conditions normales, mais des prompts ingénieux pourraient le forcer à le faire, en révélant un alignement superficiel.
* Je voudrais insister ici sur le mécanisme de la "récompense" (reward), fondamental dans l'évaluation d'une IA. En réalité, la récompense n'est autre qu'un signal numérique indiquant à un modèle d'IA si son action ou sa réponse est "bonne" ou "mauvaise" par rapport à l'objectif fixé. L'attribution des récompenses par un humain se déroule comme suit : l'évaluateur note des réponses d'IA de 1 à 5, par exemple. Un modèle de récompense (reward model) est entraîné pour prédire ces notes, et l'IA optimise ses réponses pour maximiser la récompense prédite. Exemple : ChatGPT préfère des réponses utiles et polies car son modèle de récompense a appris que les humains favorisent cette manière de répondre.
Donc, de fait, le RLHF reste la méthode la plus efficace pour aligner les IA complexes sur des critères subjectifs, mais son succès dépend :
de la qualité des annotateurs (diversité, expertise),
de la robustesse du modèle de récompense,
d'éventuels compléments techniques (combinaison de plusieurs modèles de récompense pour équilibrer les biais, par exemple).
Pour autant, les défis liés aux coûts, à la qualité et aux biais du feedback humain, poussent à la recherche de solutions alternatives, comme le RLAIF, dans la perspective de réduire à terme la dépendance aux humains (!). [Début]
- - -
Les avantages du RLAIF sont les suivants
Scalabilité et rapport coût-efficacité : avantage le plus significatif, compte tenu des coûts et de la lenteur relative du déploiement à grande échelle du feedback humain. Les évaluateurs IA peuvent générer des retours d'informations beaucoup plus rapidement, à un coût significativement moindre, et permettent un entraînement sur d'immenses volumes de données. La mise à l'échelle du RLAIF permet de générer des volumes massifs de données de feedback, chose essentielle pour entraîner des modèles toujours plus grands et complexes (là où le feedback humain serait vite un goulot d'étranglement).
Réduction des biais humains et consistance du feedback : lorsque les principes de jugement d'une IA sont définis clairement et sans biais, cela permet de réduire les biais humains dans le processus d'alignement. S'il est bien conçu, un évaluateur IA peut appliquer des règles de jugement plus cohérentes et objectives que des humains, dont les préférences sont souvent changeantes, et réduire ainsi la variabilité du feedback.
Vitesse d'itération : accélération considérable du feedback, ce qui permet des cycles d'itération et d'amélioration des modèles beaucoup plus rapides, un facteur d'une importance cruciale pour un développement accéléré des LLM.
Exploration de comportements et performances accrues : les évaluateurs IA peuvent être programmés pour évaluer des comportements très spécifiques ou rares, potentiellement difficiles à définir pour des humains.
Qualité des réponses et de l'éthique du modèle : certains résultats suggèrent que les modèles RLAIF sont moins susceptibles de fournir des réponses évasives dans le cas de requêtes sensibles, tout en restant inoffensifs. De même, un évaluateur IA peut être programmé pour respecter des règles éthiques prédéfinies, en garantissant ainsi que le modèle reste aligné sur des normes éthiques bien précises.
Flexibilité et adaptabilité : les évaluateurs IA peuvent être rapidement mis à jour ou reprogrammés pour s'adapter à de nouveaux critères d'évaluation ou à de nouvelles exigences de performance. Par ailleurs, les modèles entraînés par RLAIF peuvent atteindre des performances comparables, voire supérieures, à ceux entraînés par RLHF sur certaines tâches, notamment en matière de concision, de factualité et d'absence de toxicité.
Les inconvénients
IA vs. humain, une question de préférence : l'évaluateur IA peut finir par aligner le modèle sur ses propres "préférences d'IA", plutôt que sur les préférences humaines réelles. S'il contient des biais ou des lacunes, cela sera propagé et amplifié dans le modèle final. Défi majeur : l'évaluateur IA peut hériter ou développer ses propres biais, ce qui l'éloignera potentiellement des véritables préférences humaines ou introduira de nouvelles formes de biais.
Manque de nuance humaine et détérioration de certains aspects : certaines nuances du comportement humain sont difficiles à incorporer dans des principes ou des règles pour un évaluateur IA. Les évaluateurs IA peuvent avoir du mal à saisir les subtilités, l'humour, le sarcasme, l'empathie ou la créativité, autant de facteurs essentiels pour une interaction véritablement "humaine". Ils peuvent également optimiser des métriques sans en saisir les intentions profondes sous-jacentes. Sur certains aspects, l'inoffensivité des réponses peut parfois en diminuer légèrement l'utilité ou la justesse par rapport au RLHF.
Dépendance à la qualité de l'évaluateur IA : la performance du modèle final dépend fortement de la capacité de l'IA juge de comprendre et d'appliquer correctement les principes de jugement définis. Si l'évaluateur IA n'est pas lui-même suffisamment performant ou bien aligné, le feedback généré sera de mauvaise qualité, d'où une performance dégradée du modèle final, ce qui peut conduire à un cercle vicieux.
Manque d'explicabilité des décisions de l'IA juge : comprendre pourquoi un évaluateur IA a pris une certaine décision ou attribué un certain score peut être opaque, ce qui rend le débogage et l'amélioration du processus plus difficiles.
Risque de reward hacking* de l'évaluateur IA : de même qu'avec un feedback humain, le modèle entraîné peut apprendre à contourner l'IA juge, en trouvant des façons d'obtenir des scores élevés sans pour autant fournir des réponses optimales d'un point de vue humain.
Défis de mise en œuvre technique : implémenter un système RLAIF efficace peut s'avérer complexe du fait de la nécessité d'interagir entre deux modèles (le modèle à entraîner et l'évaluateur IA), et de formuler des principes de jugement sans équivoque. Si le modèle apprenant et le modèle juge sont trop similaires (cas de deux LLM), cela peut créer des boucles de renforcement des erreurs.
* La encore, il s'agit de récompense, et plus explicitement de "fraude à la récompense" (ou d'optimisation abusive de la récompense) : phénomène indésirable lorsqu'un agent (un modèle d'IA, dans ce cas) apprend à maximiser la fonction de récompense sans pour autant atteindre l'objectif sous-jacent souhaité par les développeurs. L'IA, qui trouve là une faille ou une faiblesse dans la façon dont la récompense est définie, l'exploite pour obtenir un score plus élevé, mais de manière non intentionnelle, voire préjudiciable.
Bien que le RLAIF soit une avancée majeure pour "démocratiser" l’alignement des IA, il ne remplace pas totalement le RLHF mais doit être privilégié pour des tâches objectives et scalables (ex. : classification, génération de code). Pour des problématiques plus subtiles (l'éthique, les interactions sociales), il y a tout intérêt à l'associer au RLHF afin d'obtenir des résultats mieux équilibrés. Sa réussite dépendra de l’amélioration des modèles juges (évaluateurs IA) et de la gestion des biais hérités. [Début]
*
Conclusion
Ce billet n'est qu'un saupoudrage, très très superficiel, de ce qu'est une IA et de la manière dont elle fonctionne. Dans la réalité, c'est de la très haute ingénierie, tout est très compliqué, souvent difficile à appréhender, donc traduire ça en mots simples était un défi. J'espère l'avoir relevé, en tout cas c'était passionnant à écrire, je souhaite que ça le soit autant pour vous à le lire. Je reste ouvert à toute critique et suggestion. [Début]