jeudi 20 mars 2025

Google et la traduction automatique : 20 ans de progrès

Dès avril 2006, j'ai été l'un des premiers à m'intéresser au cheminement impressionnant de Google dans la traduction automatique.

Le mois précédent, une présentation aux analystes financiers d'Eric Schmidt, alors CEO de Google, avait fuité et dévoilait la "stratégie définitive de Google" (voir également la stratégie de portail de Google), notamment en matière de mondialisation et de grands problèmes :

Chez Google, nous avons conscience de n’être qu’au début du chemin vers la réalisation de notre mission, qui consiste « à organiser l'information mondiale et faire en sorte qu’elle soit universellement accessible et utilisable »...

Nous consacrons actuellement plus de 500 millions de $ en investissements corporels et incorporels (hors investissements financiers), et nous innovons dans des produits tels que la traduction automatique pour que les projets susmentionnés puissent se réaliser.

Or il est clair que si vous voulez rendre l'information mondiale universellement accessible et utilisable, vous devez d'abord résoudre l'énorme problème causé par la barrière des langues !

Nous savons maintenant que le précurseur absolu de la traduction automatique (TA pour les intimes, ou MT en anglais), Federico Pucci, avait présenté sa propre méthode à traduire les langues sans les connaître 77 ans plus tôt, et publié dès 1931 « Le traducteur mécanique et la méthode pour correspondre entre européens, chacun en connaissant uniquement sa propre langue », premier texte documenté au monde sur une traduction automatique (mécanique à l'époque) à base de règles, ou RBMT (Rule-Based Machine Translation), 25 ans avant l'expérience d'IBM et de l'université de Georgetown, un système de TA qui dominera le marché pendant plus d'une cinquantaine d'années.

D'ailleurs, à ses débuts dans la TA (que l'on peut classer de bon droit dans les intemporels de la société), Google utilisait Systran (RBMT), avant de basculer sur son propre système, basé sur la statistique (approche où les traductions sont générées sur la base de modèles statistiques, dérivés de l'analyse de corpus de textes bilingues), la statistical machine translation déjà à l'essai depuis... avril 2006, et adoptée en octobre 2007 !

Google a pu passer de RBMT à l'hybride (RBMT + statistique) puis à l'approche statistique pure, en s'appuyant sur les masses gigantesques de données indexées grâce à son moteur de recherche. Juste pour illustrer mon propos :

Selon E. Schmidt, en 2006 Google indexait moins de 5 % de toute l'information potentiellement disponible sur l'Internet. Donc, en faisant un simple calcul, si les 9 390 000 000 de documents indexés (voir le nombre de résultats qui s'affiche en tapant "the" dans le champ de recherche) ne représentent que 5 % de l'ensemble, ça nous donne pas loin de 200 milliards de documents sur le réseau des réseaux, allez, on va pas chipoter...

Donc si en 2006 Internet abritait environ 200 milliards de documents, imaginez la progression sur 20 ans et multipliez ça par un chiffre compris entre 10 et 106 (nombre de mots potentiels par document)...

Cela dépasse l'entendement ! Mais revenons à ma chronologie :

Après je me suis arrêté, parce que ça devenait difficile à suivre tellement les innovations étaient fréquentes et nombreuses ! Au fil du temps, j'ai toutefois consacré plusieurs billets à la traduction en général et à la TA en particulier, en dehors de Google :

Bien qu'il y en ait d'autres (notamment sur la communication multilingue, y compris en anglais), tels sont les principaux billets publiés durant mon parcours professionnel.

*

Or nous avons désormais basculé dans une nouvelle dimension de la TA ! En novembre 2016, Google est passé à la traduction automatique neuronale, associée à un auto-apprentissage et à sa propre interlangue, pour une plus grande efficacité dans ses résultats. C'était il y a déjà presque 10 ans...

Aujourd'hui nous en sommes à l'intelligence artificielle appliquée à la traduction automatique, notamment avec Gemini (mais les concurrents ne manquent pas, sans parler de ChatGPT ou autres...) et aux grands modèles linguistiques (IBM, toujours présent...), mais je n'ai plus trop l'envie, ni le temps, d'y consacrer autant d'efforts et d'énergie que je l'ai fait ces 20 dernières années !

Une conséquence bien concrète de tout ce chambardement : après 40 ans de métier, j'ai de moins en moins de travail...

De quoi se demander si traducteur-interprète est un métier d'avenir ?

J'en doute !