mardi 9 mars 2010

Google, traducteur universel


Après avoir introduit le "speech-to-text" (reconnaissance vocale + transcription texte), Google a aussi ajouté la traduction automatique à la volée sur YouTube...

* * *

Ça commence à devenir problématique de trouver des titres que je n'ai pas déjà utilisés pour parler du binôme Google + traduction. Pour autant les progrès que fait la société dans ce secteur, aussi rapides que gigantesques, m'imposent de faire des mises à jour de temps en temps.

Cette fois l'occasion m'en est donnée par un article du New York Times intitulé Putting Google to the Test in Translation, qui compare la traduction humaine d'un extrait de texte avec celles des principaux traducteurs gratuits disponibles sur le Web : Google, Yahoo et Microsoft.

La comparaison du journal porte sur cinq langues source (français, espagnol, russe, allemand et arabe) vers une seule langue cible, l'anglais. Or je ne m'intéresserai ici qu'aux deux premières, tout simplement parce que le texte choisi pour l'extrait est littéraire : Le petit Prince de Saint-Exupéry pour le français, et Cent ans de solitude de García Márquez pour l'espagnol :


Donc, ce qui m'a énormément frappé dans ce texte, c'est que pour la première fois j'avais sous les yeux la preuve absolue de ce que j'énonçais il y a plus d'un an et demi dans Google et la traduction, à propos du concept de mémoire de traduction universelle :
Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

(...)

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
Or les deux échantillons pris en exemple par le New York Times montrent que Google construit bien cette mémoire !

En effet, par rapport à la traduction humaine, celle de Google est identique à près de 65% pour Le petit Prince (38 mots sur 59 qui forment des séquences équivalentes) et carrément à 99% pour Cent ans de solitude !!!

D'où une distanciation abyssale, en termes qualitatifs, vis-à-vis des deux autres traducteurs, qui ne réussiront jamais à combler leur retard s'ils ne passent pas à des modèles de traduction automatique fondés sur le couple "linguistique de corpus" + "analyse statistique". Et bien au contraire, l'écart se creusera démesurément au profit de Google et aux dépens de ses concurrents.

C'est là tout l'enjeu des mémoires de traduction à très grande échelle implémentées par Google :
Comme l'explique fort bien Franz Josef Och, responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
  1. augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
  2. augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la
mémoire de l'humanité...
[MàJ - 10 mars 2010] Grâce à ce tweet de Christophe Asselin, je découvre les chiffres suivants :
Pour modéliser un langage, Google a besoin d'environ un milliard de mots, employés dans des combinaisons différentes. Pour l'anglais, l'entreprise a injecté « plusieurs centaines de milliards » de termes, selon le New York Times.
Donc, là encore, les prodigieuses capacités de calcul de Google, couplées à une approche d' « intelligence hybride » associant l'homme et la machine, font la différence. Google l'explique ainsi :
If you have access to enormous datasets, it opens up whole new avenues for scientific discovery and for solving problems. For example, Google's machine translation tools take advantage of "parallel texts": documents that have been translated by humans from one language to another, with both forms available. By comparing the sentences from enormous numbers of parallel texts, machine translation tools can develop effective translation tools using simple probabilistic approaches. The results are better than any previous attempts at computerized translation, but only if there are billions of words available in parallel texts.
Mais ce n'est pas tout ! [Début]

* * *

Prenons l'exemple de mon dernier billet, dans lequel il y a une vidéo qui affiche un bandeau avec capture automatique du texte source, obtenue par reconnaissance vocale.

Et bien le texte correspondant ne réside que dans la mémoire de Google, il n'est pas disponible en ligne. Par conséquent pour le traduire en français, j'ai dû d'abord le retranscrire intégralement en italien afin d'avoir le texte, qui n'est maintenant disponible en ligne que sur mon blog italien et sur la plateforme de blogging.

Première constatation : la capture en italien est fiable à 100%.
Deuxième constatation : une fois que Google détecte la traduction du texte source, vous pouvez être sûr que le bitexte part dans la mémoire qui alimente son système de traduction automatique.

Voilà pourquoi j'annonçais cette nouveauté il y a déjà presque 4 ans :
... une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste... (et) je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ?
Car en fait, qu'il s'agisse des données images, vidéo ou voix, il suffit d'obtenir le texte source dans une première étape, soit par reconnaissance de caractères soit par reconnaissance vocale (pour la téléphonie mobile), et d'appliquer ensuite la traduction automatique au texte obtenu.

Si je garde mon exemple des vidéos sur Youtube, vous sélectionnez la langue d'arrivée de votre choix (mais comptez sur Google pour vous proposer par défaut votre langue maternelle) et vous obtenez dans le bandeau le texte traduit. Du sous-titrage automatique à la volée.

Et enfin, pour la téléphonie mobile, il suffira d'appliquer la synthèse vocale au texte traduit pour entendre dans son oreillette la version parlée. C'est ce que promet déjà Microsoft, et ce qu'a déjà annoncé Google...

Si vous voulez tester, la fonction est disponible sur Google Translate : cliquez sur l'icône du haut-parleur (que j'ai signalée par une flèche) pour entendre la version parlée du texte traduit !


[Début]


Partager sur Facebook

P.S. Quand on dit que le hasard fait bien les choses, je viens juste de découvrir par un tweet que la version bêta de la traduction automatique est disponible sur Youtube !!!

Donc, vous paramétrez la langue :


Et voilà le travail...


Pour finir, je découvre que la fonctionnalité "traduction" sur Youtube est en ligne depuis deux ans !

Que dire ? Ça se voit que je ne m'occupe plus du Web tellement je suis accaparé par le berlusconisme... [Début]

, , , , , , , , , , ,

3 commentaires:

Unknown a dit…

Bonsoir JM,
C'est fascinant tout ça mais je me demande comment un utilisateur lambda pourra discerner les éventuels contresens... La reconnaissance vocale sur youtube donne d'excellents résultats (et ça aide énormément d'avoir les sous-titres dans une langue qu'on maîtrise moyennement mais la traduction... par exemple Travaglio en IT>FR, je trouve ça incompréhensible. Tu penses que l'augmentation du corpus, cette grosse mémoire gloutonne, nous permettra d'obtenir un jour une traduction à même de rendre les finesses d'une analyse politique en prise directe sur l'actualité?

Jean-Marie Le Ray a dit…

Agnès,

Franchement je pense que oui. Pour plusieurs raisons :

1. parce que le système est auto-apprenant, et par conséquent il s'améliore continuellement ;

2. parce que le binôme "quantité de données" + "capacités de calcul" est tellement énorme (si tu cliques sur le second lien du New York Times, il y a cette phrase que je trouve éclairante : "The network of data centers that it built for Web searches may now be, when lashed together, the world’s largest computer."

Autrement dit si tu fais travailler ensemble toutes les machines de Google, t'obtient le système informatique le plus puissant du monde, alimentée par la plus grande quantité de données du monde.

C'est d'ailleurs pour ça que Google a dépassé qualitativement, en moins de 15 ans, tous les ténors de la TA, comme IBM, Systran, les militaires, etc., alors qu'ils travaillent sur ça depuis plus d'un demi-siècle...

Mais le plus formidable c'est que nous n'en sommes qu'au début. Si tôt ou tard Google rend opérationnel son centre de traduction (j'ai déjà rédigé un billet là_dessus), ça va incroyablement booster la mémoire.

En parallèle la quantité de données texte augmente à démesure, surtout qu'ils continuent de numériser toutes les bibliothèques du monde, et maintenant ils vont y ajouter les textes fournis par la reconnaissance vocale et la reconnaissance de caractères, etc. etc.

Et encore j'ignore la manière dont est organisé leur département traduction, mais imagine s'ils commencent à recruter des chefs de projet - et ils ont les moyens - pour mettre de l'ordre dans toutes ces mémoires...

Donc il est clair qu'à court terme, la "qualité" est celle que tu décris (quand bien même elle reste largement supérieure à celle produite par ses concurrents), mais imagine à moyen terme, et plus encore dans 10, 15 ou 20 ans...

En conclusion, même s'il restera des dispartités qualitatives en fonction des couples de langue, selon moi tout ça n'est qu'une question de temps !

Quand tu penses que tout se fait en automatique, de la capture du discours à la traduction à la volée... Et j'ajoute que la qualité de capture et de retranscrition en source est excellente, au moins pour l'italien, proche de 100%. En écoutant vite fait, j'ai juste relevé une erreur là où Travaglio dit "opposti" en mangeant un peu le début du mot, donc Google traduit "emplois" en interprétant "posti", mais perso, tout ça me laisse rêveur...

Googlosor a dit…

Très intéressant comme article.
Si l´on consulte un peu le web sur le traducteur gratuit, beaucoup de personne ne sont pas satisfaites. Mais si votre observation est juste, cela va changer rapidement. Néanmoins pour le moment des système de traduction sont plus performant comme ceux de samsung par exemple. Je pense donc que tout n´est pas encore joué.
Etant traducteur, j´espère que ca mettra le plus de temps possible!