Affichage des articles dont le libellé est UGC. Afficher tous les articles
Affichage des articles dont le libellé est UGC. Afficher tous les articles

mardi 9 mars 2010

Google, traducteur universel


Après avoir introduit le "speech-to-text" (reconnaissance vocale + transcription texte), Google a aussi ajouté la traduction automatique à la volée sur YouTube...

* * *

Ça commence à devenir problématique de trouver des titres que je n'ai pas déjà utilisés pour parler du binôme Google + traduction. Pour autant les progrès que fait la société dans ce secteur, aussi rapides que gigantesques, m'imposent de faire des mises à jour de temps en temps.

Cette fois l'occasion m'en est donnée par un article du New York Times intitulé Putting Google to the Test in Translation, qui compare la traduction humaine d'un extrait de texte avec celles des principaux traducteurs gratuits disponibles sur le Web : Google, Yahoo et Microsoft.

La comparaison du journal porte sur cinq langues source (français, espagnol, russe, allemand et arabe) vers une seule langue cible, l'anglais. Or je ne m'intéresserai ici qu'aux deux premières, tout simplement parce que le texte choisi pour l'extrait est littéraire : Le petit Prince de Saint-Exupéry pour le français, et Cent ans de solitude de García Márquez pour l'espagnol :


Donc, ce qui m'a énormément frappé dans ce texte, c'est que pour la première fois j'avais sous les yeux la preuve absolue de ce que j'énonçais il y a plus d'un an et demi dans Google et la traduction, à propos du concept de mémoire de traduction universelle :
Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

(...)

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
Or les deux échantillons pris en exemple par le New York Times montrent que Google construit bien cette mémoire !

En effet, par rapport à la traduction humaine, celle de Google est identique à près de 65% pour Le petit Prince (38 mots sur 59 qui forment des séquences équivalentes) et carrément à 99% pour Cent ans de solitude !!!

D'où une distanciation abyssale, en termes qualitatifs, vis-à-vis des deux autres traducteurs, qui ne réussiront jamais à combler leur retard s'ils ne passent pas à des modèles de traduction automatique fondés sur le couple "linguistique de corpus" + "analyse statistique". Et bien au contraire, l'écart se creusera démesurément au profit de Google et aux dépens de ses concurrents.

C'est là tout l'enjeu des mémoires de traduction à très grande échelle implémentées par Google :
Comme l'explique fort bien Franz Josef Och, responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
  1. augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
  2. augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la
mémoire de l'humanité...
[MàJ - 10 mars 2010] Grâce à ce tweet de Christophe Asselin, je découvre les chiffres suivants :
Pour modéliser un langage, Google a besoin d'environ un milliard de mots, employés dans des combinaisons différentes. Pour l'anglais, l'entreprise a injecté « plusieurs centaines de milliards » de termes, selon le New York Times.
Donc, là encore, les prodigieuses capacités de calcul de Google, couplées à une approche d' « intelligence hybride » associant l'homme et la machine, font la différence. Google l'explique ainsi :
If you have access to enormous datasets, it opens up whole new avenues for scientific discovery and for solving problems. For example, Google's machine translation tools take advantage of "parallel texts": documents that have been translated by humans from one language to another, with both forms available. By comparing the sentences from enormous numbers of parallel texts, machine translation tools can develop effective translation tools using simple probabilistic approaches. The results are better than any previous attempts at computerized translation, but only if there are billions of words available in parallel texts.
Mais ce n'est pas tout ! [Début]

* * *

Prenons l'exemple de mon dernier billet, dans lequel il y a une vidéo qui affiche un bandeau avec capture automatique du texte source, obtenue par reconnaissance vocale.

Et bien le texte correspondant ne réside que dans la mémoire de Google, il n'est pas disponible en ligne. Par conséquent pour le traduire en français, j'ai dû d'abord le retranscrire intégralement en italien afin d'avoir le texte, qui n'est maintenant disponible en ligne que sur mon blog italien et sur la plateforme de blogging.

Première constatation : la capture en italien est fiable à 100%.
Deuxième constatation : une fois que Google détecte la traduction du texte source, vous pouvez être sûr que le bitexte part dans la mémoire qui alimente son système de traduction automatique.

Voilà pourquoi j'annonçais cette nouveauté il y a déjà presque 4 ans :
... une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste... (et) je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ?
Car en fait, qu'il s'agisse des données images, vidéo ou voix, il suffit d'obtenir le texte source dans une première étape, soit par reconnaissance de caractères soit par reconnaissance vocale (pour la téléphonie mobile), et d'appliquer ensuite la traduction automatique au texte obtenu.

Si je garde mon exemple des vidéos sur Youtube, vous sélectionnez la langue d'arrivée de votre choix (mais comptez sur Google pour vous proposer par défaut votre langue maternelle) et vous obtenez dans le bandeau le texte traduit. Du sous-titrage automatique à la volée.

Et enfin, pour la téléphonie mobile, il suffira d'appliquer la synthèse vocale au texte traduit pour entendre dans son oreillette la version parlée. C'est ce que promet déjà Microsoft, et ce qu'a déjà annoncé Google...

Si vous voulez tester, la fonction est disponible sur Google Translate : cliquez sur l'icône du haut-parleur (que j'ai signalée par une flèche) pour entendre la version parlée du texte traduit !


[Début]


Partager sur Facebook

P.S. Quand on dit que le hasard fait bien les choses, je viens juste de découvrir par un tweet que la version bêta de la traduction automatique est disponible sur Youtube !!!

Donc, vous paramétrez la langue :


Et voilà le travail...


Pour finir, je découvre que la fonctionnalité "traduction" sur Youtube est en ligne depuis deux ans !

Que dire ? Ça se voit que je ne m'occupe plus du Web tellement je suis accaparé par le berlusconisme... [Début]

, , , , , , , , , , ,

mardi 9 juin 2009

Google : Centre Universel de Traduction


Annoncé depuis presque un an, nous y sommes !

Sans tambours ni trompettes, Google vient d'annoncer sur son blog chinois (!) (cf. traduction automatique Google en français) la pré-ouverture de son Centre universel de traduction, que je nomme ainsi en référence à la mémoire de traduction universelle que la société va ainsi créer, ou Large-Scale Translation Memory comme ils l'appellent...


Il s'agit non pas de la 21e place de marché dédiée à la traduction, mais bien de la première place de marché du 21e siècle, une véritable révolution en perspective pour les traducteurs du monde entier. Est-ce que cette révolution sera aussi une évolution ? Nous verrons à l'usage...


En attendant, laissez-moi vous présenter le service. Baptisé Google Translator Toolkit, c'est selon moi le préalable à la véritable place de marché, qui permettra de mettre en contact clients et traducteurs sans aucun autre intermédiaire, sinon Google qui offrira gratuitement le poste de travail et les outils traductionnels au milieu. Voyons donc de plus près cette boîte à outils.



En clair, lorsque vous accédez au service :


vous arrivez de suite via votre compte Google sur la page du Centre de Traduction de Google :


puis de là à votre espace de travail, basé sur Google Docs comme nous l'expliquent fort bien (en anglais) Alex Chitu et Tony Ruscoe (via TomHtml, le chenapan ! :)


Vous pouvez alors charger un fichier de votre ordi, traduire une page Web, une page Wikipedia ou un Knol :


Or comme pour l'instant il n'est possible que de traduire de l'anglais vers les autres langues et pas vice-versa, j'ai chargé un de mes billets en anglais intitulé ... Google and the Universal Translation Memory, en nommant le projet (puisque ce sera la page du texte traduit) Centre de traduction Google :


J'arrive alors sur l'espace de travail avec les deux textes en parallèle, avec à gauche l'original (en anglais dans ce cas), et à droite la version française prétraduite automatiquement par Google :


À noter qu'on peut disposer les fenêtres verticalement ou horizontalement, et que l'espace de travail, familier à tous les traducteurs professionnels qui disposent depuis des années déjà d'environnements de traduction organisés de cette manière, se décompose de la façon suivante :


En haut à gauche, vous avez le titre du projet de traduction ; en haut à droite, le nombre de mots du texte et le pourcentage de progression de la traduction ; à gauche le segment de texte surligné en jaune qui est la partie à traduire, et à droite, en regard, une fenêtre éditable avec le texte à traduire et ce que Google appelle des placeholders, pour faire en sorte de traduire sans toucher les balises, et donc sans modifier le formatage du texte.

Dans la partie basse de l'écran, à gauche, vous pouvez charger vos propres glossaires formatés, utiliser des glossaires de traduction, les créer ou en fusionner (taille limitée à 1 Mo), utiliser des mémoires de traduction, les créer ou en fusionner (taille limitée à 50 Mo), les partager (attention : DANGER ! pour les traducteurs professionnels, interdiction ABSOLUE d'utiliser Google pour traduire le matériel confidentiel de vos clients, qui n'apprécieraient pas de retrouver leurs textes sur Internet...), etc. etc.

J'arrête ici cette présentation sommaire, mais vous comprendrez que pour ce blog, né à l'enseigne de la traduction, à laquelle j'ai consacré de nombreux billets en général, et au binôme Google + traduction en particulier (une trentaine de billets en tout dont je publierai bientôt une liste à jour), cette nouvelle est vraiment de celles qui me font l'effet d'une bombe.

Tout comme il est probable qu'elle fera le même effet à toutes les parties prenantes, concernées de près ou de loin par la traduction. J'aurai l'occasion d'y revenir...



Partager sur Facebook

, , , , , , , , ,

jeudi 20 novembre 2008

Large-Scale Translation Memories (Google)

"Large-Scale Translation Memories" by Google, ou les mémoires de traduction à (très) grande échelle...

Après une brève, une longue...

Ce que j'ai appelé "mémoire de traduction universelle", Google l'appelle probablement "very large-scale translation memory". J'ai découvert ça dans mes référents le mois dernier : en cherchant "large-scale translation memories" dans le moteur, un Googler est arrivé sur la version anglaise de mon billet intitulé Google and the Universal Translation Memory !

large-scale translation memories
Expression clé qui ne produit telle quelle aucun résultat aujourd'hui, et tout juste cinq dans sa version au singulier, dont trois uniques :
  1. a soon to be introduced "large-scale Translation Memory" server
  2. a "large scale translation memory" database
  3. implementation of Xerox's XTM "large scale translation memory" system
large-scale translation memory in SERPs
Voilà. Donc à présent rien n'existe qui serait proche de la notion de "mémoire de traduction universelle" telle que la conçoit Google avec son Centre de traduction, pour l'instant encore en version de bêta-test réservée à des testeurs invités.


D'ailleurs si quelqu'un sait comment avoir une invitation, pensez à moi, ce serait sympa !

Pour l'heure, ces Large-Scale Translation Memories, ces mémoires de traduction à grande échelle ne sont implémentées que par de très grosses organisations (Xerox, Union européenne, etc.) et par des LSP d'envergure mondiale. Je me limiterai à mentionner Logoport de Lionbridge, voir ici pour plus de détails.

Cependant, outre qu'elles se confinent au technique (si l'on peut dire), ces mémoires ont le - très - gros défaut d'être propriétaires. En ce sens que lors d'une traduction effectuée sur ces systèmes, la propriété de la mémoire est phagocytée par l'agence, les traducteurs n'ayant plus aucun contrôle sur ce qu'ils produisent...

Idem pour les solutions de traduction automatique déployée en entreprise, dont la mise à disposition de la mémoire, quand elle a lieu, se limite au courtage.

Et même si une initiative open source comme GlobalSight, lancée par Welocalize (qui fait partie de TAUS), devrait voir le jour en janvier 2009, avec Google on change d'échelle. Et de modèle économique (notamment sur les questions de propriété intellectuelle)...

Dans ce cadre, les seules notions de mémoire approchantes qui existent sont, à ma connaissance, les projets TAUS et VLTM, le premier se distinguant davantage par sa portée potentielle, vu le nombre (une quarantaine de membres fondateurs plus une soixantaine de candidats en attente, outre l'implication probable de la Commission européenne) et la qualité des acteurs impliqués, et le deuxième par sa philosophie "libre", plus "grand public" dirons-nous.

* * *

TAUS, Translation Automation User Society, a pour vision et pour mission, via la TAUS Data Association, des objectifs ambitieux, davantage détaillés dans son business plan :
  1. Legitimate and secure platform for storing, sharing and leveraging language data.
  2. Access to large volumes of trusted language data for increased translation automation.
  3. Industry collaboration to promote harmonization of multilingual terminology.
Pour vous donner une idée du sérieux de l'affaire, on compte parmi les membres du Comité de pilotage des représentants de Microsoft, Intel, Sun Microsystems, Welocalize, Adobe et le Bureau de la Traduction du Gouvernement canadien.

Les données linguistiques, ou pour mieux dire, les "actifs linguistiques" seront sélectionnés et centralisés par les membres de l'Association : « TDA will give free access to its databases for the look-up of translations of terms and phrases. Members will be able to select and pool data to increase translation efficiency and improve translation quality. »

Sur la liberté d'accès à tous, il semble plutôt que le portail permettra à l'internaute lambda d'obtenir quelques infos essentielles sur la base, juste histoire de lui donner envie de payer pour pouvoir utiliser les données. Il faudra donc voir la version "live" à l'usage pour juger sur pièce, mais en clair, cette apparente gratuité ne sera qu'un "produit d'appel" pour passer à la caisse...

C'est d'ailleurs pourquoi l'initiative de Google ne laisse pas TAUS indifférent :


Article à lire...

* * *

Par rapport à TAUS, à vocation plus "industrielle", le projet VLTM (Very Large Translation Memory) de Wordfast est davantage "artisanal", puisqu'il suppose l'utilisation du logiciel de TAO, excellent mais quasi exclusivement réservé aux traducteurs de métier.

Ce serait d'ailleurs bien qu'Yves Champollion, que j'ai le plaisir de connaître, communique davantage sur le projet, sur sa philosophie, et donne peut-être quelques stats sur son utilisation.

Pour autant, l'initiative est tout aussi sérieuse que la précédente, parole de Champollion, bon sang ne saurait mentir ! Puisque Jean-François, son aïeul illustre, réussit à déchiffrer les hiéroglyphes grâce à la pierre de Rosette, découverte pendant la campagne d'Égypte, une stèle qui est à proprement parler l'ancêtre des mémoires de traduction (même si maintenant c'est un peu plus compliqué...) !


En effet, cette pierre aligne en parallèle trois inscriptions d'un même texte, dont deux en langue égyptienne et la troisième en grec, langue connue, ce qui a permis le déchiffrement.

* * *

Donc je le répète, et j'insiste lourdement là-dessus, ce qu'il y a de nouveau avec Google dans ce domaine, c'est à la fois l'échelle, superlative, et la rupture totale des modèles économiques pré-existants.



Car comme l'explique fort bien Franz Josef Och, Responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
  1. augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
  2. augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la mémoire de l'humanité :
...En nous livrant à un bref exercice de prospective, on peut très facilement imaginer que ... Google pourra ... puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (...), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
Qui n'aura donc plus besoin de chercher "Large-Scale Translation Memories" dans ... Google, en laissant le pluriel aux autres, puisque la société de Mountain View disposera enfin de la très singulière "Very Large-Scale Translation Memory", j'ai nommé The Universal Translation Memory, ou par chez nous LA mémoire de traduction universelle...

Non, vous ne rêvez pas, c'est pour bientôt...


Partager sur Facebook

, , , , , , , , ,

mardi 9 septembre 2008

Google and the Universal Translation Memory

Version française

Blown away from the outset by Google’s speedy and significant break into machine translation, I have long been predicting its brilliant progress in the field of translation. Surely there are quite a few surprises left to come.

I’m at the point where instead of the operator define:, sometimes I test the operator translate: just to see if it has been implemented since I last checked. And it seems that the moment has arrived, with the translation onebox (Via Google Live).

Apparently, it currently only concerns common expressions, although it is likely it will cover all terms already included in Google’s dictionaries.


I tried with Italian but it doesn’t work yet. Even so, it is likely that as soon as the future Google Translation Center is up and working, this operator will also search for translations in the bitexts that will populate the universal translation memory an army of translators is developing daily.

Remember that this memory also helps Google self-teach, and “bitext” refers to a source text (or starting text) and a target text (or final text) set side by side in alignment. Example.

In fact, the operator does not seem to function the same way as define:, where you use the English term no matter what language you speak.

With "translate", it’s apparently the operator that defines the target language: when you type translate ordinateur Google directly interprets this to mean translation from French to English, whereas with traduire computer, it interprets English to French.

So, if we engage in a brief forward-looking exercise, we can easily imagine that in the very near future, not only will Google be able to match the operator to your profile by default (that is, knowing you are English, it will offer you terms translated into English by default, unless you indicate otherwise), but it will also (and most importantly) be able to draw from practically all the terms in human language, in all languages, as the universal translation memory gradually takes shape.

It will be filled as much by the human translators who use Google’s tools to translate, as by its large-scale automated technologies (not to be confused with the implementation of an automatic translation system in a company, for example), or even by the alignment of literary classics that make up our common heritage and which are already translated into countless languages.

For the layman, aligning a text is taking for example Victor Hugo's Les Misérables breaking it into segments and aligning the segments of the original text with the corresponding segments translated into the language(s) of your choice (noting that a segment does not necessarily correspond to a sentence, which will be broken into multiple segments if it is too long, for example). You do this with French-English, and you have the French-English memory of Les Misérables. Then you do the same thing with English-Italian, Spanish-German, Russian-Chinese, etc., and you get as many memories as there are languages into which a work has been translated.

The Rosetta Stone is a perfect example of aligned texts. And if I could only mention one more, think of the thousands of translations of the Bible that already exist...

Add to that the great classics from around the world that are already in digital format, build the corresponding translation memories in the language pairs you have access to, and you can easily understand that we are not far from being able to align practically the whole of human language, from every era.

Since the dawn of humanity, no one has ever been able to do that. Until Google...

The talk about Google and translation is not over yet. In fact, it’s only beginning!


Partager sur Facebook

, , , , , , , , , , ,

dimanche 31 août 2008

Google et la traduction

English version

Bluffé depuis le début par la percée significative et ultra-rapide de Google dans la traduction automatique, voici longtemps que je prédis ses avancées éclatantes dans le domaine de la traduction, de nature à nous réserver bien des surprises.

À tel point qu'à l'instar de l'opérateur define:, de temps en temps je teste l'opérateur translate: juste pour voir s'il n'aurait pas été mis en place entre-temps. Or il semble qu'avec la translation onebox, le moment est venu ! (Via Google Live).

Apparemment, ça ne concerne aujourd'hui que les expressions courantes, même s'il est probable que cela puisse porter sur tous les termes qui renseignent déjà les dictionnaires de Google.


J'ai testé avec l'italien mais ça ne marche pas encore. Pour autant, il est probable que dès la mise à régime du futur centre de traduction de Google, cet opérateur ira également rechercher les traductions dans les bitextes qui peupleront la mémoire de traduction universelle quotidiennement élaborée par une armée de traductrices et de traducteurs.

Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

Par ailleurs, l'opérateur semble ne pas fonctionner de la même manière que define:, où vous utilisez le terme anglais quelle que soit votre langue.

Alors qu'avec "translate", c'est apparemment l'opérateur qui définit la langue d'arrivée, puisqu'en saisissant translate ordinateur Google interprète directement le sens de traduction français vers anglais, tandis qu'avec traduire computer l'interprétation se fait de l'anglais vers le français.

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...

Google et la traduction, on n'a pas fini d'en parler. En fait, on commence juste !


Partager sur Facebook

, , , , , , , , , , ,

mercredi 27 août 2008

The Big Tent - Denver - Colorado - DNC 2008

The Big Tent - Denver - Colorado - DNC 2008

Ce billet naît de la comparaison de deux façons différentes de traiter une info, chez Narvic, et Szarah.

Deux façons à la fois divergentes et complémentaires, deux points de vue originaux, comme toujours quand il s'agit de ces loustics (que Madame me pardonne :-).

Deux rectificatifs aussi : the Big Tent n'est pas une grande tente, comme son nom semblerait l'indiquer, et Google n'en est pas le promoteur. Tout juste un sponsor parmi d'autres, dont Digg et ... Dailymotion !


Voici un peu à quoi ça ressemble (qualité de son déplorable) :



Ici le son est meilleur mais la vidéo moins intéressante. des photos. Vous pouvez également suivre The Big Tent sur Twitter.

Ceci étant posé, il est vraiment intéressant de constater comment Google, pratiquement sans rien faire au plan de la communication, se voit promu organisateur de la chose, alors qu'il n'a rien à voir ni avec les fameux 100 dollars (quand bien même on pourra me rétorquer que c'est grâce aux sponsors que ces prix sont possibles), ni avec le reste. Il leur suffit de laisser dire et laisser faire, tout le monde s'en charge fort bien à leur place.

Et alors même que l'info officielle était en ligne depuis le ... 26 juin !

Ceci dit Google et d'autres sauront très certainement s'inspirer des retombées inattendues de ce sponsoring pour de prochaines occasions, voire pour faciliter l'émergence des nouveaux médias en vue de compenser le déclin du journalisme de terrain de leurs aînés grand public.

Même si en fin de compte, qu'on soit journaliste ou blogueur, les vraies questions restent celles des complémentarités et de la crédibilité de l'information, voire de son asymétrie...


Partager sur Facebook

P.S. Derrière le bureau de réception du Google Lounge, cette inscription : Google retreat...

Tout un programme, qu'on veuille jouer sur les mots ou non !

, , , , , , , , , , , , , ,

mercredi 6 août 2008

Le centre de traduction Google, ou la mémoire de traduction universelle

English version

Voici la dernière innovation en date de Google, qui me touche de très près. Révélé par Blogoscoped et découvert par Tony Ruscoe, vieille connaissance et habitué des scoops (en anglais), le centre de traduction de Google est très certainement destiné à révolutionner le monde de la traduction professionnelle (auquel j'appartiens depuis près d'un quart de siècle, le temps passe !) et de la traduction tout court.

Déjà que depuis plus d'une décennie tous les modèles économiques de la traduction volent en éclat les uns après les autres, bien avant ceux du journalisme, sous les coups de boutoir conjugués de la course au rabais, du crowdsourcing et de la concurrence mondialisée sur Internet, de la localisation, de la quadrature du triangle, etc.

Mais cette nouvelle initiative de Google est également une concurrence aussi puissante qu'inattendue pour les places de marché dédiées, dont la plus aboutie est sans aucun doute ProZ (où j'ai été modérateur pendant deux ans), puisque Google se place désormais sur le même terrain. En effet, même si pour l'instant Google a retiré les pages Web de son nouveau service, elles viennent s'ajouter à l'actuel pôle traduction de Google, disponible ici :


qui permet déjà la traduction automatique d'extraits de texte ou de pages Web, la recherche multilingue, la consultation d'un glossaire multilingue, et différents outils qui sont plutôt, pour l'heure, de simples gadgets, du genre :


Cela va changer avec le nouveau centre de traduction, puisque la petite dernière nouveauté de Google, déjà traducteur automatique, est un véritable environnement d'aide à la traduction qui combine en ligne un poste de travail multifonctions, une plateforme de mise en contact et, probablement, de paiements, etc.

Mais le plus important, pour Google, c'est que si l'initiative est adoptée à grande échelle, ce qui est à prévoir, ils pourront capitaliser sur ce qui deviendra rapidement la plus grande mémoire de traduction du monde et l'améliorer au fur et à mesure. Constituée non plus uniquement de façon automatique, mais grâce à tous les internautes passionnés de langues, qu'il s'agisse de traducteurs professionnels ou pas. Il est même probable que le gros du travail sera fait par des amateurs plutôt que par des professionnels.

Ceci dit, je pense qu'il serait judicieux pour les professionnels d'occuper le terrain dès le début, car si Google prévoit de donner une visibilité quelconque aux traducteurs participants, c'est clairement une occasion à saisir, et si vous ne le faites pas, d'autres le feront. Donc autant être parmi les premiers...

Mais voyons de plus près quelle est la "philosophie Google" derrière son Google Translation Center, dont l'URL aboutit sur une page d'erreur mais dont les illustrations sont encore en ligne (pour combien de temps ?) ! Les captures d'écran représentent :

1. Ouvrir un nouveau projet :


Texte associé :
Vous souhaitez publier vos documents dans une autre langue ? Le centre de traduction de Google est la solution plus rapide pour traduire votre contenu : chargez votre document, choisissez votre langue cible et un prestataire parmi notre liste de traducteurs professionnels et bénévoles. Si quelqu'un accepte, vous devriez recevoir votre contenu traduit dès que la traduction sera prête.

Do you want your documents published in another language? Google Translation Center is the fast and easy way to get translations for your content. Simply upload your document, choose your translation language, and choose from our registry of professional and volunteer translators. If a translator accepts, you should receive your translated content back as soon as it's ready.
2. Trouver une demande de traduction/révision :


Texte associé :
Traduire dans votre langue vous passionne ? Cherchez dans notre centre de traduction les demandes ouvertes dans votre langue. Acceptez les demandes correspondantes et utilisez les outils de traduction de Google pour livrer rapidement des traductions de haute qualité.

Passionate about bringing content into your language? Browse through Google Translation Center to find open translation requests into your language. Accept translation requests and use Google translation tools to provide quick, high-quality translations.
3. Pour traduire et réviser, utilisez gratuitement nos outils de traduction conviviaux :


Texte associé :
Les traducteurs professionnels et bénévoles traduisent vite et bien grâce aux technologies Google - traduction automatique, dictionnaires et autres outils linguistiques. Mieux encore, nos fonctionnalités de recherche des traductions antérieures comparent la vôtre avec des textes précédemment traduits pour que vous n'ayez plus besoin de traduire encore et encore les mêmes choses !

Volunteers and professionals translate quickly and well through Google technologies - automated (machine) translation, dictionaries, and other language tools. Best of all, our translation search feature matches your current translation with previous translations, so you don't have to translate over and over again!
Donc, en tant que traducteur de métier, ce que je retiens d'abord de ceci est l'expression "traducteurs professionnels et bénévoles", qui seront ainsi mis en concurrence.

Or la gratuité est un critère difficile à battre, si ce n'est par la qualité. Les pros de la traduction le savent bien, qui luttent constamment contre une baisse des prix permanente avec les seules armes qui leur restent : la qualité et la spécialisation.

Google, qui dispose déjà de la plus grande mémoire de traduction du monde, s'apprête à en démultiplier la portée et la qualité. En mettant "gratuitement" ses outils ultra-performants à disposition des traducteurs contre la possibilité d'exploiter LA mémoire de traduction universelle ainsi créée, c'est évidemment un deal gagnant-gagnant pour Google et ceux qui feront traduire leurs contenus.

Avec au milieu les traducteurs, comme toujours, mais c'est dans leur DNA, puisque de tout temps les traducteurs sont des intermédiaires, des ponts disait Hugo...

Google donne davantage de précisions dans ses conditions de service (ne les cherchez pas, elles ne sont plus en ligne pour l'instant), où il se dégage de toute responsabilité éventuelle :
1. Google Translation Center's Role

Google Translation Center provides a venue for you to enter into and complete translation transactions. Except when you use Google Translation Center as provided in Section 4 (Google and/or its subsidiaries and affiliates may use Google Translation Center from time to time), Google is not involved in any transactions in Google Translation Center. Your interaction with any third party participant(s) or user(s) within Google Translation Center, including payment and delivery of goods and services, and any other terms, conditions, warranties or representations associated with such dealings, are solely between you and such third party participant(s) or user(s) and Google is not involved in such dealings. You agree that Google shall not be responsible or liable for any loss or damage arise out of such dealings.
En clair : le rôle du centre de traduction de Google, c'est de fournir une plateforme de traduction via laquelle des transactions pourront avoir lieu entre demandeurs (y compris Google, le cas échéant) et prestataires, ces derniers dégageant Google de ses responsabilités dans le cadre de leurs accords, contre paiement ou pas, avec des tiers.

De même, dans sa FAQ, Google nous dit que son centre de traduction s'inscrit dans l'effort déployé pour rendre l'information universellement accessible grâce à la traduction (Google Translation Center is part of our effort to make information universally accessible through translation).

C'est librement à la disposition de tous les traducteurs (We provide Google Translation Center tools to all translators), bénévoles et professionnels, ce qui suppose bien sûr un paiement, dans ce dernier cas (via Google Checkout ?).

Selon Google, son service devrait d'emblée être disponible en 40 langues, couvrant 98% des internautes (Google Translation Center supports translations into 40 languages, covering 98% of the world's Internet users).

En conclusion, il est encore bien trop tôt pour comprendre l'impact de ce nouveau service, mais ce qui est sûr, c'est qu'il s'agit là d'une nouvelle révolution destinée à bouleverser l'univers de la traduction, et, donc, des traducteurs professionnels, qui n'en avaient déjà pas besoin...


Partager sur Facebook

P.S. Puisqu'il en est question, suite à l'annonce par Google Adwords d'Insights for Search, qui donne un aperçu d'ensemble des volumes de recherche par terme(s) clé(s), par répartition géographique, les mots clés connexes, etc., voici l'exemple sur ... "traduction" :



, , , , , , , , ,