Affichage des articles dont le libellé est mémoire de traduction. Afficher tous les articles
Affichage des articles dont le libellé est mémoire de traduction. Afficher tous les articles

mardi 9 mars 2010

Google, traducteur universel


Après avoir introduit le "speech-to-text" (reconnaissance vocale + transcription texte), Google a aussi ajouté la traduction automatique à la volée sur YouTube...

* * *

Ça commence à devenir problématique de trouver des titres que je n'ai pas déjà utilisés pour parler du binôme Google + traduction. Pour autant les progrès que fait la société dans ce secteur, aussi rapides que gigantesques, m'imposent de faire des mises à jour de temps en temps.

Cette fois l'occasion m'en est donnée par un article du New York Times intitulé Putting Google to the Test in Translation, qui compare la traduction humaine d'un extrait de texte avec celles des principaux traducteurs gratuits disponibles sur le Web : Google, Yahoo et Microsoft.

La comparaison du journal porte sur cinq langues source (français, espagnol, russe, allemand et arabe) vers une seule langue cible, l'anglais. Or je ne m'intéresserai ici qu'aux deux premières, tout simplement parce que le texte choisi pour l'extrait est littéraire : Le petit Prince de Saint-Exupéry pour le français, et Cent ans de solitude de García Márquez pour l'espagnol :


Donc, ce qui m'a énormément frappé dans ce texte, c'est que pour la première fois j'avais sous les yeux la preuve absolue de ce que j'énonçais il y a plus d'un an et demi dans Google et la traduction, à propos du concept de mémoire de traduction universelle :
Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

(...)

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
Or les deux échantillons pris en exemple par le New York Times montrent que Google construit bien cette mémoire !

En effet, par rapport à la traduction humaine, celle de Google est identique à près de 65% pour Le petit Prince (38 mots sur 59 qui forment des séquences équivalentes) et carrément à 99% pour Cent ans de solitude !!!

D'où une distanciation abyssale, en termes qualitatifs, vis-à-vis des deux autres traducteurs, qui ne réussiront jamais à combler leur retard s'ils ne passent pas à des modèles de traduction automatique fondés sur le couple "linguistique de corpus" + "analyse statistique". Et bien au contraire, l'écart se creusera démesurément au profit de Google et aux dépens de ses concurrents.

C'est là tout l'enjeu des mémoires de traduction à très grande échelle implémentées par Google :
Comme l'explique fort bien Franz Josef Och, responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
  1. augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
  2. augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la
mémoire de l'humanité...
[MàJ - 10 mars 2010] Grâce à ce tweet de Christophe Asselin, je découvre les chiffres suivants :
Pour modéliser un langage, Google a besoin d'environ un milliard de mots, employés dans des combinaisons différentes. Pour l'anglais, l'entreprise a injecté « plusieurs centaines de milliards » de termes, selon le New York Times.
Donc, là encore, les prodigieuses capacités de calcul de Google, couplées à une approche d' « intelligence hybride » associant l'homme et la machine, font la différence. Google l'explique ainsi :
If you have access to enormous datasets, it opens up whole new avenues for scientific discovery and for solving problems. For example, Google's machine translation tools take advantage of "parallel texts": documents that have been translated by humans from one language to another, with both forms available. By comparing the sentences from enormous numbers of parallel texts, machine translation tools can develop effective translation tools using simple probabilistic approaches. The results are better than any previous attempts at computerized translation, but only if there are billions of words available in parallel texts.
Mais ce n'est pas tout ! [Début]

* * *

Prenons l'exemple de mon dernier billet, dans lequel il y a une vidéo qui affiche un bandeau avec capture automatique du texte source, obtenue par reconnaissance vocale.

Et bien le texte correspondant ne réside que dans la mémoire de Google, il n'est pas disponible en ligne. Par conséquent pour le traduire en français, j'ai dû d'abord le retranscrire intégralement en italien afin d'avoir le texte, qui n'est maintenant disponible en ligne que sur mon blog italien et sur la plateforme de blogging.

Première constatation : la capture en italien est fiable à 100%.
Deuxième constatation : une fois que Google détecte la traduction du texte source, vous pouvez être sûr que le bitexte part dans la mémoire qui alimente son système de traduction automatique.

Voilà pourquoi j'annonçais cette nouveauté il y a déjà presque 4 ans :
... une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste... (et) je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ?
Car en fait, qu'il s'agisse des données images, vidéo ou voix, il suffit d'obtenir le texte source dans une première étape, soit par reconnaissance de caractères soit par reconnaissance vocale (pour la téléphonie mobile), et d'appliquer ensuite la traduction automatique au texte obtenu.

Si je garde mon exemple des vidéos sur Youtube, vous sélectionnez la langue d'arrivée de votre choix (mais comptez sur Google pour vous proposer par défaut votre langue maternelle) et vous obtenez dans le bandeau le texte traduit. Du sous-titrage automatique à la volée.

Et enfin, pour la téléphonie mobile, il suffira d'appliquer la synthèse vocale au texte traduit pour entendre dans son oreillette la version parlée. C'est ce que promet déjà Microsoft, et ce qu'a déjà annoncé Google...

Si vous voulez tester, la fonction est disponible sur Google Translate : cliquez sur l'icône du haut-parleur (que j'ai signalée par une flèche) pour entendre la version parlée du texte traduit !


[Début]


Partager sur Facebook

P.S. Quand on dit que le hasard fait bien les choses, je viens juste de découvrir par un tweet que la version bêta de la traduction automatique est disponible sur Youtube !!!

Donc, vous paramétrez la langue :


Et voilà le travail...


Pour finir, je découvre que la fonctionnalité "traduction" sur Youtube est en ligne depuis deux ans !

Que dire ? Ça se voit que je ne m'occupe plus du Web tellement je suis accaparé par le berlusconisme... [Début]

, , , , , , , , , , ,

mardi 9 septembre 2008

Google and the Universal Translation Memory

Version française

Blown away from the outset by Google’s speedy and significant break into machine translation, I have long been predicting its brilliant progress in the field of translation. Surely there are quite a few surprises left to come.

I’m at the point where instead of the operator define:, sometimes I test the operator translate: just to see if it has been implemented since I last checked. And it seems that the moment has arrived, with the translation onebox (Via Google Live).

Apparently, it currently only concerns common expressions, although it is likely it will cover all terms already included in Google’s dictionaries.


I tried with Italian but it doesn’t work yet. Even so, it is likely that as soon as the future Google Translation Center is up and working, this operator will also search for translations in the bitexts that will populate the universal translation memory an army of translators is developing daily.

Remember that this memory also helps Google self-teach, and “bitext” refers to a source text (or starting text) and a target text (or final text) set side by side in alignment. Example.

In fact, the operator does not seem to function the same way as define:, where you use the English term no matter what language you speak.

With "translate", it’s apparently the operator that defines the target language: when you type translate ordinateur Google directly interprets this to mean translation from French to English, whereas with traduire computer, it interprets English to French.

So, if we engage in a brief forward-looking exercise, we can easily imagine that in the very near future, not only will Google be able to match the operator to your profile by default (that is, knowing you are English, it will offer you terms translated into English by default, unless you indicate otherwise), but it will also (and most importantly) be able to draw from practically all the terms in human language, in all languages, as the universal translation memory gradually takes shape.

It will be filled as much by the human translators who use Google’s tools to translate, as by its large-scale automated technologies (not to be confused with the implementation of an automatic translation system in a company, for example), or even by the alignment of literary classics that make up our common heritage and which are already translated into countless languages.

For the layman, aligning a text is taking for example Victor Hugo's Les Misérables breaking it into segments and aligning the segments of the original text with the corresponding segments translated into the language(s) of your choice (noting that a segment does not necessarily correspond to a sentence, which will be broken into multiple segments if it is too long, for example). You do this with French-English, and you have the French-English memory of Les Misérables. Then you do the same thing with English-Italian, Spanish-German, Russian-Chinese, etc., and you get as many memories as there are languages into which a work has been translated.

The Rosetta Stone is a perfect example of aligned texts. And if I could only mention one more, think of the thousands of translations of the Bible that already exist...

Add to that the great classics from around the world that are already in digital format, build the corresponding translation memories in the language pairs you have access to, and you can easily understand that we are not far from being able to align practically the whole of human language, from every era.

Since the dawn of humanity, no one has ever been able to do that. Until Google...

The talk about Google and translation is not over yet. In fact, it’s only beginning!


Partager sur Facebook

, , , , , , , , , , ,

dimanche 31 août 2008

Google et la traduction

English version

Bluffé depuis le début par la percée significative et ultra-rapide de Google dans la traduction automatique, voici longtemps que je prédis ses avancées éclatantes dans le domaine de la traduction, de nature à nous réserver bien des surprises.

À tel point qu'à l'instar de l'opérateur define:, de temps en temps je teste l'opérateur translate: juste pour voir s'il n'aurait pas été mis en place entre-temps. Or il semble qu'avec la translation onebox, le moment est venu ! (Via Google Live).

Apparemment, ça ne concerne aujourd'hui que les expressions courantes, même s'il est probable que cela puisse porter sur tous les termes qui renseignent déjà les dictionnaires de Google.


J'ai testé avec l'italien mais ça ne marche pas encore. Pour autant, il est probable que dès la mise à régime du futur centre de traduction de Google, cet opérateur ira également rechercher les traductions dans les bitextes qui peupleront la mémoire de traduction universelle quotidiennement élaborée par une armée de traductrices et de traducteurs.

Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

Par ailleurs, l'opérateur semble ne pas fonctionner de la même manière que define:, où vous utilisez le terme anglais quelle que soit votre langue.

Alors qu'avec "translate", c'est apparemment l'opérateur qui définit la langue d'arrivée, puisqu'en saisissant translate ordinateur Google interprète directement le sens de traduction français vers anglais, tandis qu'avec traduire computer l'interprétation se fait de l'anglais vers le français.

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...

Google et la traduction, on n'a pas fini d'en parler. En fait, on commence juste !


Partager sur Facebook

, , , , , , , , , , ,