Adscriptor: traduction automatique

Affichage des articles dont le libellé est traduction automatique. Afficher tous les articles

mardi 9 mars 2010

Google, traducteur universel

Après avoir introduit le "speech-to-text" (reconnaissance vocale + transcription texte), Google a aussi ajouté la traduction automatique à la volée sur YouTube...

* * *

Ça commence à devenir problématique de trouver des titres que je n'ai pas déjà utilisés pour parler du binôme Google + traduction. Pour autant les progrès que fait la société dans ce secteur, aussi rapides que gigantesques, m'imposent de faire des mises à jour de temps en temps.

Cette fois l'occasion m'en est donnée par un article du New York Times intitulé Putting Google to the Test in Translation, qui compare la traduction humaine d'un extrait de texte avec celles des principaux traducteurs gratuits disponibles sur le Web : Google, Yahoo et Microsoft.

La comparaison du journal porte sur cinq langues source (français, espagnol, russe, allemand et arabe) vers une seule langue cible, l'anglais. Or je ne m'intéresserai ici qu'aux deux premières, tout simplement parce que le texte choisi pour l'extrait est littéraire : Le petit Prince de Saint-Exupéry pour le français, et Cent ans de solitude de García Márquez pour l'espagnol :

Donc, ce qui m'a énormément frappé dans ce texte, c'est que pour la première fois j'avais sous les yeux la preuve absolue de ce que j'énonçais il y a plus d'un an et demi dans Google et la traduction, à propos du concept de mémoire de traduction universelle :

Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

(...)

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...

Or les deux échantillons pris en exemple par le New York Times montrent que Google construit bien cette mémoire !

En effet, par rapport à la traduction humaine, celle de Google est identique à près de 65% pour Le petit Prince (38 mots sur 59 qui forment des séquences équivalentes) et carrément à 99% pour Cent ans de solitude !!!

D'où une distanciation abyssale, en termes qualitatifs, vis-à-vis des deux autres traducteurs, qui ne réussiront jamais à combler leur retard s'ils ne passent pas à des modèles de traduction automatique fondés sur le couple "linguistique de corpus" + "analyse statistique". Et bien au contraire, l'écart se creusera démesurément au profit de Google et aux dépens de ses concurrents.

C'est là tout l'enjeu des mémoires de traduction à très grande échelle implémentées par Google :

Comme l'explique fort bien Franz Josef Och, responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la mémoire de l'humanité...

[MàJ - 10 mars 2010] Grâce à ce tweet de Christophe Asselin, je découvre les chiffres suivants :

Pour modéliser un langage, Google a besoin d'environ un milliard de mots, employés dans des combinaisons différentes. Pour l'anglais, l'entreprise a injecté « plusieurs centaines de milliards » de termes, selon le New York Times.

Donc, là encore, les prodigieuses capacités de calcul de Google, couplées à une approche d' « intelligence hybride » associant l'homme et la machine, font la différence. Google l'explique ainsi :

If you have access to enormous datasets, it opens up whole new avenues for scientific discovery and for solving problems. For example, Google's machine translation tools take advantage of "parallel texts": documents that have been translated by humans from one language to another, with both forms available. By comparing the sentences from enormous numbers of parallel texts, machine translation tools can develop effective translation tools using simple probabilistic approaches. The results are better than any previous attempts at computerized translation, but only if there are billions of words available in parallel texts.

Mais ce n'est pas tout ! [Début]

* * *

Prenons l'exemple de mon dernier billet, dans lequel il y a une vidéo qui affiche un bandeau avec capture automatique du texte source, obtenue par reconnaissance vocale.

Et bien le texte correspondant ne réside que dans la mémoire de Google, il n'est pas disponible en ligne. Par conséquent pour le traduire en français, j'ai dû d'abord le retranscrire intégralement en italien afin d'avoir le texte, qui n'est maintenant disponible en ligne que sur mon blog italien et sur la plateforme de blogging.

Première constatation : la capture en italien est fiable à 100%.
Deuxième constatation : une fois que Google détecte la traduction du texte source, vous pouvez être sûr que le bitexte part dans la mémoire qui alimente son système de traduction automatique.

Voilà pourquoi j'annonçais cette nouveauté il y a déjà presque 4 ans :

... une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste... (et) je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ?

Car en fait, qu'il s'agisse des données images, vidéo ou voix, il suffit d'obtenir le texte source dans une première étape, soit par reconnaissance de caractères soit par reconnaissance vocale (pour la téléphonie mobile), et d'appliquer ensuite la traduction automatique au texte obtenu.

Si je garde mon exemple des vidéos sur Youtube, vous sélectionnez la langue d'arrivée de votre choix (mais comptez sur Google pour vous proposer par défaut votre langue maternelle) et vous obtenez dans le bandeau le texte traduit. Du sous-titrage automatique à la volée.

Et enfin, pour la téléphonie mobile, il suffira d'appliquer la synthèse vocale au texte traduit pour entendre dans son oreillette la version parlée. C'est ce que promet déjà Microsoft, et ce qu'a déjà annoncé Google...

Si vous voulez tester, la fonction est disponible sur Google Translate : cliquez sur l'icône du haut-parleur (que j'ai signalée par une flèche) pour entendre la version parlée du texte traduit !

[Début]

Jean-Marie Le Ray

Partager sur Facebook

P.S. Quand on dit que le hasard fait bien les choses, je viens juste de découvrir par un tweet que la version bêta de la traduction automatique est disponible sur Youtube !!!

Donc, vous paramétrez la langue :

Et voilà le travail...

Pour finir, je découvre que la fonctionnalité "traduction" sur Youtube est en ligne depuis deux ans !

Que dire ? Ça se voit que je ne m'occupe plus du Web tellement je suis accaparé par le berlusconisme... [Début]

Actualités, Google, Google Translation Center, translation, translation onebox, traduction, traduction automatique, mémoire de traduction, user-generated content, UGC, Web 2.0, Internet

mardi 9 septembre 2008

Google and the Universal Translation Memory

Version française

Blown away from the outset by Google’s speedy and significant break into machine translation, I have long been predicting its brilliant progress in the field of translation. Surely there are quite a few surprises left to come.

I’m at the point where instead of the operator define:, sometimes I test the operator translate: just to see if it has been implemented since I last checked. And it seems that the moment has arrived, with the translation onebox (Via Google Live).

Apparently, it currently only concerns common expressions, although it is likely it will cover all terms already included in Google’s dictionaries.

I tried with Italian but it doesn’t work yet. Even so, it is likely that as soon as the future Google Translation Center is up and working, this operator will also search for translations in the bitexts that will populate the universal translation memory an army of translators is developing daily.

Remember that this memory also helps Google self-teach, and “bitext” refers to a source text (or starting text) and a target text (or final text) set side by side in alignment. Example.

In fact, the operator does not seem to function the same way as define:, where you use the English term no matter what language you speak.

With "translate", it’s apparently the operator that defines the target language: when you type translate ordinateur Google directly interprets this to mean translation from French to English, whereas with traduire computer, it interprets English to French.

So, if we engage in a brief forward-looking exercise, we can easily imagine that in the very near future, not only will Google be able to match the operator to your profile by default (that is, knowing you are English, it will offer you terms translated into English by default, unless you indicate otherwise), but it will also (and most importantly) be able to draw from practically all the terms in human language, in all languages, as the universal translation memory gradually takes shape.

It will be filled as much by the human translators who use Google’s tools to translate, as by its large-scale automated technologies (not to be confused with the implementation of an automatic translation system in a company, for example), or even by the alignment of literary classics that make up our common heritage and which are already translated into countless languages.

For the layman, aligning a text is taking for example Victor Hugo's Les Misérables breaking it into segments and aligning the segments of the original text with the corresponding segments translated into the language(s) of your choice (noting that a segment does not necessarily correspond to a sentence, which will be broken into multiple segments if it is too long, for example). You do this with French-English, and you have the French-English memory of Les Misérables. Then you do the same thing with English-Italian, Spanish-German, Russian-Chinese, etc., and you get as many memories as there are languages into which a work has been translated.

The Rosetta Stone is a perfect example of aligned texts. And if I could only mention one more, think of the thousands of translations of the Bible that already exist...

Add to that the great classics from around the world that are already in digital format, build the corresponding translation memories in the language pairs you have access to, and you can easily understand that we are not far from being able to align practically the whole of human language, from every era.

Since the dawn of humanity, no one has ever been able to do that. Until Google...

The talk about Google and translation is not over yet. In fact, it’s only beginning!

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Google, Google Translation Center, translation, translation onebox, traduction, traduction automatique, mémoire de traduction, user-generated content, UGC, Web 2.0, Internet

dimanche 31 août 2008

Google et la traduction

English version

Bluffé depuis le début par la percée significative et ultra-rapide de Google dans la traduction automatique, voici longtemps que je prédis ses avancées éclatantes dans le domaine de la traduction, de nature à nous réserver bien des surprises.

À tel point qu'à l'instar de l'opérateur define:, de temps en temps je teste l'opérateur translate: juste pour voir s'il n'aurait pas été mis en place entre-temps. Or il semble qu'avec la translation onebox, le moment est venu ! (Via Google Live).

Apparemment, ça ne concerne aujourd'hui que les expressions courantes, même s'il est probable que cela puisse porter sur tous les termes qui renseignent déjà les dictionnaires de Google.

J'ai testé avec l'italien mais ça ne marche pas encore. Pour autant, il est probable que dès la mise à régime du futur centre de traduction de Google, cet opérateur ira également rechercher les traductions dans les bitextes qui peupleront la mémoire de traduction universelle quotidiennement élaborée par une armée de traductrices et de traducteurs.

Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

Par ailleurs, l'opérateur semble ne pas fonctionner de la même manière que define:, où vous utilisez le terme anglais quelle que soit votre langue.

Alors qu'avec "translate", c'est apparemment l'opérateur qui définit la langue d'arrivée, puisqu'en saisissant translate ordinateur Google interprète directement le sens de traduction français vers anglais, tandis qu'avec traduire computer l'interprétation se fait de l'anglais vers le français.

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...

Google et la traduction, on n'a pas fini d'en parler. En fait, on commence juste !

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Google, Google Translation Center, translation, translation onebox, traduction, traduction automatique, mémoire de traduction, user-generated content, UGC, Web 2.0, Internet

mercredi 14 novembre 2007

Traduction et Google, l'apprenti traducteur

Traduction et Google, l'apprenti traducteur

Selon ses intemporels et ses bonnes habitudes, Google innove aussi dans la traduction automatique en conférant qualité, simplicité, rapidité, gratuité, universalité, originalité et interactivité à son système.

Dans innovation il y a nouveauté, et la présentation en bitexte (c'est-à-dire avec le texte cible présenté en regard du texte source) est une exclusivité Google. Il se peut que d'autres systèmes s'y mettent, ce serait même souhaitable, comme avec un autre concept intéressant, celui de Systran box, où il n'y a même plus besoin de cliquer !

Mais là encore, Google est précurseur et ne dément pas son originalité. Ni son désir d'interactivité puisque chacune des traductions automatiques que fournit le système peut être améliorée par l'internaute.

Dans la version bitexte, une fenêtre s'ouvre en bas du texte traduit lorsque l'on clique sur le lien "proposer une meilleure traduction", où chacun peut intervenir et saisir sa propre version d'un passage choisi.

Google prévient : nous utiliserons vos suggestions pour améliorer la qualité de nos traductions lors de prochaines mises à jour de notre système (We'll use your suggestion to improve translation quality in future updates to our system).

Et soyons sûr que nos suggestions seront passées au crible... Idem pour les traductions de pages Web :

où en sélectionnant une portion traduite, une fenêtre de suggestion propose l'original correspondant et la possibilité d'intervenir.

Sur la qualité maintenant, j'entends déjà une levée de boucliers. On pourra toujours m'opposer quantité d'anecdotes plus ou moins croustillantes sur les balbutiements du système. Il n'empêche que les capacités apprenantes de Google, traducteur automatique sont déjà en place (Google qui ne rechigne d'ailleurs pas à faire appel aux bonnes volontés), et que son approche statistique lui a déjà permis de devancer des compétiteurs de poids (IBM, Systran, etc.) et d'avancer à pas de géant dans la TA.

Jean Véronis, qui s'y connaît, nous dit en commentaire de ce billet que l'approche retenue par Google souffre deux écueils :

1) Elle est très sensible à la quantité et au type de textes parallèles disponibles. pour certains couples de langues, comme allemand-français, il y en a très peu (essentiellement des textes institutionnels comme ceux de l'ONU ). L'apprentissage statistique est donc nécessairement mauvais.

2) Elle procède par apprentissage de "n-grammes", c'est-à-dire de suites de n mots consécutifs (trigrammes, etc.). Ca ne marche pas trop mal dans le cas des langues dites à ordre fixe (français, espagnol, anglais, etc.), mais beaucoup moins bien sur les langues à ordre variable (allemand, russe, etc.).

Pour autant, de nombreux autres champs de recherche sont parcourus, comme l'explique le rapport final du Machine Translation Working Group sur les technologies “MINDS”, acronyme de Machine Translation (MT), Information Retrieval (IR), Natural Language Processing (NLP), Data Resources (Data) & Speech Understanding (ASR).

Notamment avec la traduction automatique multimoteur (Multi-Engine Machine Translation), qui consiste à tirer parti de différentes approches et différents modèles, puisqu'aucune approche ni aucun modèle seuls ne sont la panacée. D'où la nécessité de faire levier sur la diversité des recherches pour faire avancer la TA (...there has recently been a surge in interest in approaches that can synthetically combine different MT engines operating on a common input into a “consensus” translation which surpasses all the individual MT engines in its quality).

Un domaine où Google nous réserve probablement encore bien des surprises...

Jean-Marie Le Ray

Partager sur Facebook

P.S. Si vous voulez tester Google traduction :

Google, Systran, TA, traduction, traduction automatique

mardi 23 octobre 2007

Google, traducteur automatique

Si vous cherchez le service de traduction automatique de Google, c'est par là :-)

Comparaisons Yahoo Babelfish (Systran) / Google Translate

Une deuxième brève qui me touche de près. Déjà un an et demi que j'écrivais Google et la traduction automatique, où je tentais d'expliquer le chemin gigantesque parcouru par Google en TA, un domaine particulièrement pointu.

Contrairement à Systran, qui utilise une technologie à base de règles (morphologiques, syntaxiques, sémantiques, grammaticales, heuristiques, logiques, etc. etc.) appliquées à des vocabulaires et des grammaires définis, Google choisit une approche statistique [tout en collaborant avec le milieu universitaire], qui consiste à gaver les machines de milliards de mots de texte, ce qu'on appelle la linguistique de corpus (parallèles, alignés ou non), en associant des corpus (ou corpora pour les puristes) monolingues à des bi-textes (en prenant par exemple un site bilingue, ou tri- ou n-lingue, dont les textes sont segmentés puis alignés afin de fournir une mémoire de traduction) pour y appliquer ensuite des techniques d'apprentissage statistiques permettant de construire des modèles de traduction.

Et c'est là où Google est très fort, puisque, dernier arrivé dans ce domaine (où les places sont chères, par ailleurs), il se classe premier en devançant IBM, etc., et en se détachant très nettement de Systran, aussi bien pour la paire linguistique chinois-anglais qu'arabe-anglais...

Or Google, qui continuait d'utiliser Systran jusqu'à présent, vient de basculer sur son système maison, Google Translate.

Je n'ai pas le temps pour l'instant, mais je réitérerai l'expérience à laquelle je m'étais livrée, rapportée à la fin du billet Google et la traduction automatique, histoire de voir les différences...

Google a-t-il développé son propre logiciel de traduction ?

Oui. L'équipe de chercheurs de Google a développé son propre système de traduction statistique pour plusieurs paires de langues, désormais disponibles dans Google Traduction.

Via Google Operating System.

Et bien nous allons pouvoir tester ! Il y en aura besoin : quel plaisantin ce Google, qui traduit Nicolas Sarkozy par Bush... (même si les humains font toujours mieux que les moteurs, c'est d'ailleurs pour ça qu'il y a encore des traducteurs comme le soussigné...)

Merci Angel, qui m'a signalé ce lien en commentaire. [Début]

Jean-Marie Le Ray

Partager sur Facebook

Comparaisons Yahoo Babelfish (Systran) / Google Translate

À l'origine, un article de Seth Jayson dont j'ai traduit des extraits dans La dérive publicitaire sur Internet : les incohérences de Google (entre autres)...

Quelques temps plus tard, ayant vu dans mes stats qu'un lecteur anglophone avait soumis ce billet au traducteur automatique, j'ai eu l'idée de comparer la traduction de ma traduction à l'article anglais, à l'occasion d'un billet sur Google et la traduction automatique. D'où le test original.

Or aujourd'hui que Google abandonne Systran, c'est la situation rêvée pour comparer les performances des deux systèmes et mettre en regard les différentes traductions. Voici donc trois tableaux, avec dans l'ordre :

Ma traduction de l'article de Seth Jayson / L'article de Seth Jayson
Comparaison Yahoo Babelfish (Systran) / Google Translate (ma traduction en français vers l'anglais)
Comparaison Yahoo Babelfish (Systran) / Google Translate (l'article de Seth Jayson en anglais vers le français)

[Début]

1. Ma traduction française de l'article de Seth Jayson / L'article en anglais de Seth Jayson

Ma traduction de l'article de Seth Jayson	L'article de Seth Jayson
Avez-vous déjà fait une recherche sur Internet ces derniers temps ? Alors vous aurez sans doute observé le manque de qualité des résultats, y compris chez les concurrents de Google tels que Yahoo! ou Ask.com ? Et leur nouveau design n'y change rien. J'en suis peiné autant que vous. Moi aussi je suis resté coincé des heures et des heures dans les portes-tambours de ces fermes de liens, de ces splogs et autres « scraper sites » : des sites qui ont l'air d'avoir du contenu, (...), alors qu'en réalité, le plus souvent c'est du matériel recyclé provenant à leur insu d'autres fournisseurs de contenu, assemblé par des processus automatisés.	Any of you try searching lately? Notice the astounding lack of quality across the board, even at revamped competitors like Yahoo! (Nasdaq: YHOO) and IAC/InterActiveCorp's (Nasdaq: IACI) Ask.com? I feel your pain. I, too, have spent hours stuck in the revolving door of link farms, splogs, and scraper sites. These sites look like they contain content, (…). If there is some content there, it's often recycled material from other providers, compiled by an automated process.
Les hurluberlus qui créent ce genre de sites n'ont qu'un seul objectif : vous amener à cliquer sur les liens sponsorisés de Google AdSense.	The jokers who create these sites have one goal: Trying to get you to click on a Google AdSense link.
Naturellement, ces sites ne respectent en rien les conditions commerciales prévues par Google, ce qui n'empêche qu'ils éclosent par millions. Faites juste une recherche sur « adsense ready web site » et vous aurez une idée de cette industrie miteuse, aussi discrète qu'un éléphant dans un magasin de porcelaine, qui tire un maximum de profits du phénomène.	Of course, such sites run contrary to Google's terms of service, but that hasn't stopped zillions of them from popping up. In fact, a search on "adsense ready web site" will give you a glimpse of the often-sleazy, bigger-than-a-cottage, scraper-site industry that's sprung up to try to capitalize on the phenomenon.
Comment Google est-il en train de tuer la poule aux oeufs d'or.	How Google killed the golden goose.
Les problèmes sont nombreux, et tous les éradiquer pourrait coûter cher à Google (quand bien même ce ne serait pas impossible). Le premier concerne le bon vieux plagiat.	There are multiple problems here, all of which will be costly (if not impossible) for Google to eradicate. The first issue is good old-fashioned thievery.
La plupart de ces boîtes à spam n'ont pas que pour but d'attirer le chaland cliqueur, mais aussi de faciliter la fraude aux clics à grande échelle. (...) D'ailleurs le public n'a généralement aucune idée de ce qui se passe, même si les internautes un peu plus avertis sont au courant. Nous en ignorons seulement les véritables proportions. D'aucuns avancent un pourcentage de clics plutôt restreint ; d'autres disent carrément la moitié. En tout état de cause, Google, qui a tout à perdre si les choses vont aussi mal que le dénoncent certains journalistes citoyens, minimise considérablement les chiffres.	Many of these spamsites are set up not just to catch us individual clickers, but also to facilitate larger-scale click fraud (...)Most of the public is entirely clueless about this situation, but people who pay attention to the space know this problem exists. Only its extent is unknown. Some say low teens as a percentage of clicks; others shoot for half. Of course, Google, which has a ton to lose if things are as bad as some outspoken Netizens believe, consistently lowballs the number.
Un autre facteur facilitant cette explosion de contenu spammé et de fraude aux clics est la mainmise de Google au niveau de la recherche sur Internet, que l'on peut estimer grosso modo à 60%, de fait un quasi-monopole. Pour autant, l'argument consistant à dire que le marché est assez grand pour se corriger tout seul en la matière est quelque peu naïf. Sans compétition et sans information, les marchés ne corrigent rien du tout, et je ne pense pas qu'il y ait aujourd'hui des concurrents sérieux capables de faire le poids. Pour l'instant.	The other enabler for the explosion of spam content and click fraud is Google's roughly 60% stranglehold on Web search, which gives it a pretty effective monopoly. That's why I find the "self-correcting market" arguments regarding click fraud more than a tad naive. Markets don't correct without competition and information, and I don't think there's enough of either here to make a difference. Yet.
Prenez le cas des annonceurs d'AdWords qui croient que leurs résultats sont dilués à cause de la fraude aux clics. Soyez sûrs qu'ils savent que les enchères sur leurs mots clés devraient leur coûter moins, mais peuvent-ils se faire entendre ? Et peuvent-ils se le permettre lorsqu'il y en a des milliers et milliers d'autres prêts à payer plus parce que : (a) ils ignorent tout du problème ; (b) ils ne le savent que trop, mais sont capables grâce à la fraude aux clics de récupérer une partie de ce qu'ils déboursent de l'autre côté ?	Take AdWords advertisers who believe their results are being watered down by click fraud. Sure, they know they should bid lower on keywords to try to reflect that, but are they going to do it? Can they afford to, with so many others out there who bid high because (a) they don't know about the problem, or (b) they know much more than they should, and they're able to use click fraud to recoup some of what they're paying out?
Je ne connais pas les réponses, et ni même toutes les questions. Mais si le problème est aussi grave que le craignent certains, c'est tout le modèle de revenu mis sur pied par Google qui pourrait en pâtir, voire l'ensemble du business du pay-per-click. En attendant l'explosion des fermes de liens et des splogs montre clairement que la fraude aux clics est juteuse et florissante, aux dépens de tous les internautes. Sauf de Google. Pour l'instant, là encore.	I don't know the answers -- or even all of the questions. But if this problem is as bad as some fear, it could eventually put a major crimp in Google's entire revenue model, if not the entire pay-per-click business. I would argue that the explosion of link farms and spamblogs is pretty decent evidence that the click-fraud biz is not only alive and well, but also thriving at the expense of all of us. Except Google. For now, anyway.
Jamais plus !	No mas!
On peut croire ou non que tous ces sites bourriels qui font commerce des AdSense sont honnêtes ou fraudeurs en masse, mais moi ce dont je suis sûr c'est qu'il faut remercier Google pour cette situation. Il n'y a en effet aucune raison de mettre en ligne ce genre de sites si l'on ne peut en tirer un revenu grâce au modèle de business mis en place par Google. Et avec Yahoo! et les autres prêts à entrer dans la danse, je ne crois pas qu'on verra la tendance s'inverser de sitôt.	Whether or not you believe that the junk sites out there peddling AdSense ads are honest commerce or capitalizing on large-scale click fraud, there's little doubt in my mind that we've got Google to thank for it. There's simply no reason for people to set up these sites if they can't skim dough via third-hand revenue sharing enabled by Google's business model. With Yahoo! and others set to get in on the same gig, I don't think we'll see this trend abate.
J'espère seulement que tout cela présage d'un retour au bon vieux temps, maintenant que la blogosphère risque de perdre toujours plus de son importance, vu qu'elle commence à être cooptée par tous les trafiqueurs d'AdSense et à se diluer rapidement. Résultat : les fournisseurs d'info connus pour leur qualité/fiabilité - dont beaucoup sont indubitablement des blogs - vont y gagner en importance. Et dès qu'ils réaliseront le pouvoir de leur information, ils auront de moins en moins envie que Google les pille et fasse du fric sur le dos de la réputation qu'ils auront mis tant de labeur et d'énergie à bâtir.	I think that bodes for a return to the old days -- that the blogosphere that's being so rapidly diluted and co-opted by these AdSense shenanigans will become a lot less important. As a result, trusted information providers -- and some will doubtlessly be blogs -- will become more important. As they realize the power of their information, they'll be a lot less willing to allow Google to skim dollars off the content and reputation they've worked to build.

[Début]

* * *

2. Comparaison Yahoo Babelfish (Systran) / Google Translate (ma traduction en français vers l'anglais)

Ma traduction retraduite par Yahoo Babelfish (Systran)	Ma traduction retraduite par Google Translate
Did you already make a research on Internet lately ? Then you will undoubtedly have observed the lack of quality of the results, including at the competitors of Google such as Yahoo! or Ask.com ? And their new design changes nothing there. I am pained by it as much as you. Me also I remained wedged hours and hours in the reels of these farms of bonds, these splogs and other " scraper sites " : sites which seem to have contents, (...), whereas actually, generally it is recycled material coming without their knowledge of other content providers, assembled by automated processes.	Have you ever done a search on the Internet lately? So you have no doubt observed the lack of quality of results, including among Google competitors such as Yahoo! Or Ask.com? And their new design changes nothing. I toiled as much as you do. I also am trapped for hours and hours in the farms portes-tambours these links, these splogs and other "scraper sites" sites that seems to have content, (...) , when in reality it is mostly recycled material without their knowledge from other content providers, assembled by automated processes.
The hurluberlus which create this kind of sites have one objective : you to bring to click on the sponsored bonds of Google AdSense.	The Zany who create such sites have only one objective: to get you to click on sponsored links from Google AdSense.
Naturally, these sites do not respect of anything the commercial conditions provided by Google, which does not prevent that they hatch per million. Make just a research on " adsense ready web site " and you will have an idea of this miteuse industry, as discrete as an elephant in a porcelain store, which extracts a maximum of profits from the phenomenon.	Naturally, these sites do not trade conditions provided by Google, which prevents they hatch by the millions. Just search for "adsense ready web site" and you have an idea of this industry roaches, as a discreet bull in a china shop, which gets a maximum profit of the phenomenon.
How Google is it killing goose that lays the golden eggs.	How Google is in the process of killing the goose that lays the golden eggs.
The problems are numerous, and all the éradiquer could be expensive Google (when well even it would not be impossible). The first concerns the good old man plagiarism.	The problems are many, and all could eliminate costly to Google (even though it would not be impossible). The first concerns the good old plagiarism.
The majority of these Spam boxes do not have that to attract the barge cliquor, but also to facilitate to the fraud with the clicks on a large scale (...) Besides the public generally the purpose of no idea is from what occurs, even if the Net surfers more informed a little are well-informed. We are unaware of of them only the true proportions. Of aucuns advance a rather restricted percentage of clicks; others say half straightforwardly. In any event, Google, which has very to lose if the things are as badly as certain journalists citizens denounce it, minimizes the figures considerably.	Most of these spam boxes that had not intended to attract the barge clicker, but also to facilitate the click fraud on a large scale. (...) Besides the public generally has no idea what's happening, even if some people are more knowledgeable informed. We just do not know the true proportions. Some argue a percentage of clicks rather limited; Others say bluntly half. In any event, Google, which has everything to lose if things go as badly as some journalists denounce the citizens, greatly minimizes the numbers.
Another factor facilitating this explosion of spammé contents and fraud to the clicks is the seizure of Google on the level of research on Internet, which one can roughly speaking estimate at 60%, in fact a quasi-monopoly. For as much, the consistent argument with saying that the market is enough large to be corrected all alone on the matter is somewhat naive. Without competition and information, the markets do not correct anything the whole, and I do not think that there are today serious competitors able to make the weight. For the moment.	Another factor facilitating this explosion of content spammed and click fraud is the clutches of Google in the Internet search, which can be roughly estimated at 60%, is a virtual monopoly. However, the argument to say that the market is big enough to correct all alone in this area is somewhat naive. Without competition, and without information, markets do correct anything, and I do not think that there is now serious competitors capable of making weight. For the moment.
Take the case of the advertisers ofAdWords which believe that their results are diluted because of the fraud to the clicks. Be sure that they know that the biddings on their key words should cost them less, but can be made hear ? And can they allow it when there are of them thousands and thousands of other loans to be paid more because: (A) they are unaware of all the problem ; (b) they know it only too, but are able thanks to the fraud with the clicks to recover a part of what they spend on other side ?	Take the case of AdWords advertisers who believe that their results are diluted as a result of click fraud. Be sure they know that their bids on keywords should cost them less, but can they be heard? And can they afford it when there are thousands and thousands of others willing to pay more because: (a) they know nothing of the problem; (B) they know this only too well, but are capable thanks at the click fraud to recover part of what they spend on the other side?
I do not know the answers, and nor even all the questions. But if the problem is as serious as some fear it, it is all the model of income set up by Google which could suffer from it, even the whole of the business of the pay-per-click. While waiting for the explosion of the farms of bonds and the splogs shows clearly that the fraud with the clicks is juicy and flourishing, at the expense of all the Net surfers. Except of Google. For the moment, there still.	I do not know the answers, or even all the questions. But if the problem is as serious as some people fear, the whole revenue model developed by Google, which could decrease, or even the whole business of pay-per-click. Until the explosion farms splogs links and clearly shows that click fraud is juicy and thriving at the expense of all Internet users. Except Google. For the moment, again.
Never more !	Never again!
One can believe or not that all these sites bourriels which make trade of AdSense are honest or defrauders in mass, but me that of which I is sure it is that it is necessary to thank Google for this situation. There is indeed no reason to put on line this kind of sites if one cannot draw an income thanks to the model from it from business set up by Google. And with Yahoo! and the other loans to enter the dance, I do not believe that one will see the tendency to be reversed as soon as.	One can believe or not that all those sites that are doezn't trade AdSense are honest or fraudsters en masse, but I what I am sure is that we must thank Google for this situation. There is indeed no reason to online sites such if we can generate income through the business model developed by Google. And with Yahoo! , And others ready to enter the dance, I do not believe that the trend will be reversed any time soon.
I hope only that all that predicts of a return to good old days, now that the blogosphère am likely to lose always more his importance, considering whom it starts to be co-opted by all the traffickers of AdSense and to be diluted quickly. Result : the information providers known for their qualite/fiability - of which much is undoubtedly blogs - will gain there in importance. And as soon as they carry out the capacity of their information, they will want less and less that Google money plunders them and makes on the back of the reputation which they will have put such an amount of labour and energy to be built.	I only hope that all this presages a return to the good old days, now that the blogosphere risk losing even more of its importance, as it begins to be coopted by all AdSense trafficking and to be diluted quickly . Result: info providers known for their quality / reliability - many of whom are undoubtedly blogs-will gain in importance. And as soon as they realize the power of their information, they will have less and less interested than Google loots and make money on the backs of the reputation they have put so much hard work and effort to build.

[Début]

* * *

3. Comparaison Yahoo Babelfish (Systran) / Google Translate (l'article de Seth Jayson en anglais vers le français)

L'extrait de l'article de Seth Jayson traduit par Yahoo Babelfish (Systran)	L'extrait de l'article de Seth Jayson traduit par Google Translate (Google)
Une partie d'entre de vous essai recherchant récemment ? Notez le manque étonnant de qualité d'un bout de l'affaire à l'autre, même aux concurrents améliorés comme Yahoo ! (Nasdaq : YHOO) et IAC/InterActiveCorp's (Nasdaq : IACI) Ask.com ? Je sens votre douleur. I, aussi, ont passé des heures coincées dans la porte de rotation des fermes de lien, des splogs, et des emplacements de racleur. Ces emplacements regardent comme ils contiennent le contenu, (...). s'il y a un certain contenu là, matériel souvent réutilisé d'it's d'autres fournisseurs, compilés par un processus automatisé.	Tout d'entre vous essayez de rechercher dernièrement? Remarquez l'étonnant manque de qualité dans tous les domaines, même à réorganiser concurrents tels que Yahoo! (Nasdaq: YHOO) et IAC / InterActiveCorp '(Nasdaq: IACI) Ask.com? Je ressens votre douleur. Moi aussi, ont passé des heures coincé dans la porte tournante de lien fermes, splogs, et les sites racloir. Ces sites ressemblent à des contenus qu'ils contiennent, (...). S'il ya peu de contenu, c'est souvent à partir de matériaux recyclés d'autres fournisseurs, compilées par un processus automatisé.
Les jokers qui créent ces emplacements ont un but : Essai de vous obliger à cliquer sur un lien de Google AdSense.	Les plaisantins qui créent ces sites ont un seul objectif: Essayer de vous amener à cliquer sur un lien Google AdSense.
Naturellement, de tels emplacements fonctionnent contrairement aux limites de Google's du service, mais aux zillions d'eux arrêtés ce par hasn't de sauter vers le haut. En fait, une recherche sur le site" prêt d'enchaînement de "adsense ; vous donnera un aperçu du souvent-leger, grand-que-un-petite maison, l'industrie that's d'racleur-emplacement prise naissance pour essayer de profiter du phénomène.	Bien sûr, ces sites sont contraires à Google, les termes de service, mais cela n'a pas empêché des milliers d'entre eux fleurissent. En fait, une recherche sur "prêt adsense site" vous donnera un aperçu de l'souvent sleazy, plus grande que un chalet, racloir site de l'industrie qui surgi à essayer de capitaliser sur ce phénomène.
Comment Google a tué l'oie d'or.	Comment Google a tué la poule aux œufs d'or.
Il y a des problèmes multiples ici, qui seront coûteux (si non impossible) pour que Google supprime. La première issue est bon vol démodé.	Il ya de multiples problèmes, qui seront tous coûteux (voire impossible) pour Google à éradiquer. La première question est de bon vieux vol.
Plusieurs de ces spamsites sont installés pas simplement pour nous attraper différents clickers, mais faciliter également grand-mesurez la fraude de clic (...)Most du public est entièrement clueless au sujet de cette situation, mais les gens qui prêtent l'attention à l'espace savent que ce problème existe. Seulement son ampleur est inconnue. Certains indiquent de basses années de l'adolescence comme pourcentage des clics ; d'autres tirent pour la moitié. Naturellement, Google, qui a une tonne à perdre si les choses sont aussi mauvaises que quelques Netizen francs croient, uniformément lowballs le nombre.	Bon nombre de ces spamsites sont mis en place, non seulement pour nous attraper boutons individuels, mais aussi pour faciliter à plus grande échelle sur la fraude (...) La plupart de la population est totalement incompétentes sur cette situation, mais les gens qui prêtent attention à l'espace savent Problème existe. Seule son ampleur est inconnue. Certains disent que les adolescents comme un faible pourcentage de clics; Pour la moitié d'autres pousses. Bien entendu, Google, qui dispose d'une tonne à perdre si les choses sont si mauvais que certains ouvertement Netizens croire, le nombre lowballs constante.
L'autre enabler pour l'explosion du contenu de Spam et de la fraude de clic est domination de Google's approximativement 60% sur la recherche de Web, qui lui donne un joli monopole efficace. That's pourquoi je trouve le market" de "art de l'auto-portrait-correcting ; arguments concernant la fraude de clic plus qu'un tad naïf. Les marchés don't corrects sans concurrence et information, et le I don't pensent assez there's à l'un ou l'autre ici pour faire une différence. Encore.	L'autre catalyseur pour l'explosion du spam et cliquez sur le contenu de Google en matière de fraude est d'environ 60% sur la mainmise de recherche sur le Web, ce qui lui donne un monopole passablement efficace. C'est pourquoi je trouve la "légitime corriger marché" en ce qui concerne les arguments fraude aux clics plus d'un peu naïf. Les marchés ne sont pas correctes sans concours et de l'information, et je ne pense pas que celle-ci soit assez pour faire une différence. Pourtant.
Prenez les annonceurs d'AdWords qui croient que leurs résultats sont arrosés vers le bas par fraude de clic. Sûrs, ils savent qu'ils devraient offrir plus bas sur des mots-clés d'essayer de refléter cela, mais ils vont le faire ? Peuvent-ils se permettre à, avec tant d'autres hors de là qui offrent haut parce que (a) elles don't savent le problème, ou (b) savent-elles que beaucoup plus qu'elles devraient, et they're capable employer la fraude de clic pour récupérer une partie de ce qui they're payant dehors ?	Prendre les annonceurs AdWords qui croient que leurs résultats sont édulcorées par des clics incorrects. Bien sûr, ils savent qu'ils doivent abaisser enchère sur les mots clés pour essayer de réfléchir, mais vont-ils faire? Peuvent-ils se le permettre, avec tant d'autres à qui il offre haut parce que (a) ils ne connaissent pas le problème, ou (b) ils savent beaucoup plus qu'ils ne devraient, et ils sont en mesure d'utiliser fraude aux clics de récupérer Certains de ce qu'ils paient?
I don't savent les réponses -- ou même toutes les questions. Mais si ce problème est aussi mauvais qu'une certaine crainte, il pourrait par la suite mettre un cuir embouti important dans le modèle entier de revenu de Google's, si pas les affaires entières de pay-per-clic. J'arguerais du fait que l'explosion des fermes et des spamblogs de lien est évidence assez décente que le biz de clic-fraud est non seulement vivant et bien, mais également prospérité aux dépens de tous les nous. Excepté Google. Pour maintenant, quoi qu'il en soit.	Je ne connais pas la réponse -- ou même toutes les questions. Mais si ce problème est aussi grave que certains le craignent, elle pourrait éventuellement mettre un majeur dans Google sertir l'ensemble du modèle de revenus, sinon la totalité du paiement par clic. Je dirais que l'explosion des exploitations et le lien est assez décent spamblogs preuve que la fraude cliquez biz est non seulement bien vivante, mais aussi prospère au détriment de nous tous. Sauf Google. Pour l'instant, de toute façon.
Aucuns mas !	Mas Non!
Si vous croyez que l'ordure situe hors de colporter là AdSense ADS sont le commerce honnête ou profitant de la fraude à grande échelle de clic, doute de there's peu dans mon esprit que we've a obtenu Google de remercier de lui. There's simplement aucune raison pour que les personnes installent ces emplacements s'ils pâte de peau de can't par l'intermédiaire du partage de revenu de troisième-main permettaient par le modèle d'affaires de Google's. Avec Yahoo ! et d'autres placent pour entrer sur la même gig, I don't pensent que we'll voient cette tendance diminuer.	Que vous croyez ou non que les sites indésirables, il colporter annonces AdSense sont honnêtes ou capitaliser sur le commerce à grande échelle sur la fraude, il ya peu de doute dans mon esprit que nous avons à remercier Google pour cela. Il n'ya tout simplement pas de raison pour que les gens à mettre en place ces sites, s'ils ne peuvent pas parcourir la pâte par l'intermédiaire troisième main activé par le partage des revenus de Google en matière de modèle d'affaires. Avec Yahoo! Et d'autres pour obtenir la série sur le même concert, je ne pense pas que nous verrons cette tendance diminuera.
Je pense qui présage pour un retour aux vieux jours -- qui le blogosphere that's tellement rapidement dilué et coopté par ces shenanigans d'AdSense deviendra beaucoup moins important. En conséquence, les producteurs de base de données de confiance -- et certains soyez sans doute des blogs -- deviendront plus importants. Car ils réalisent la puissance de leur information, they'll soit beaucoup moins disposé à permettre à Google d'écrémer des dollars outre du contenu et de la réputation they've travaillés pour construire.	Je pense que de bon augure pour un retour à l'époque -- que la blogosphère, afin que soit rapidement dilué et cooptés par ces entourloupettes AdSense deviendra beaucoup moins important. En conséquence, les fournisseurs d'information digne de confiance -- et certains vont sans doute être les blogs -- deviendront plus importants. Comme ils ont le pouvoir de réaliser leurs informations, ils seront beaucoup moins disposés à permettre à Google d'écrémer de dollars au large de la teneur et de la réputation qu'ils ont travaillé à construire.

[Début]

Conclusion : là encore, la pertinence de Google me semble nettement supérieure à celle de Yahoo, exactement comme pour la recherche, et pour le reste. Ceci explique cela...

Jean-Marie Le Ray

Partager sur Facebook

Liens connexes :

[Début]

Actualités, Google, Nicolas Sarkozy, Sarkozy, Systran, TA, traduction, traduction automatique, laboratoire de traduction

jeudi 8 février 2007

No intervening human linguists: est-ce la GALE, Docteur ?

En commentaire à un billet intitulé Les traducteurs, espèce en voie d'extinction ?, j'observe :

En voie d'extinction, sûrement pas, mais en voie de transformation profonde, certainement. Même si apparemment beaucoup des parties prenantes n'en ont pas encore pris conscience.

On ne peut plus traduire sur et via Internet comme on le faisait AVANT Internet, et les logiques de nivellement par le bas à l'œuvre sur les différentes places de marché dédiées qui existent aujourd'hui font l'impasse sur ce que doit être une traduction de qualité, en finissant toujours par imposer aux traducteurs la quadrature du triangle...

Je voudrais donc développer davantage mon raisonnement, et, surtout, tenter d'expliquer pourquoi, selon moi, les métiers de la traduction vont subir bien plus tôt qu'ils ne le pensent des « transformations profondes », pour ne pas dire une véritable révolution.

Je vois deux grands axes d'évolution :

la traduction automatique

la localisation sans traduction

* * *

1. Traduction automatique

Eric Schmidt nous rappelait déjà en octobre 2005 que la traduction automatique (TA) pourrait aider à abolir les barrières linguistiques à la communication :

Larry and Sergey talked a little bit yesterday about some of the issues of automatic translation. And language has typically been a barrier for communication. If we can automatically translate between the two, that can help.

Il est d'ailleurs notoire que chez Google de nombreux ingénieurs s'y consacrent à plein temps :

Google also has an army of engineers working on automatic translation tools that would render information in any language intelligible in any other.

Ce n'est donc pas un hasard si en moins de 10 ans Google s'est hissé parmi les premiers acteurs mondiaux dans le domaine de la traduction automatique et pourrait bien nous réserver quelques surprises à l'avenir...

Mais Google n'est pas seul en lice. Dans son rapport 2007 de planification stratégique, la DARPA, mieux connue pour être à l'origine du défi Internet, nous annonce que l'un de ses développements clés à l'horizon 2010 va porter sur le traitement des langues, et plus spécialement sur une traduction automatique fiable en temps réel : Real-Time Accurate Language Translation, qui ne nécessitera plus l'intervention de traducteurs-interprètes humains. Directement du média à l'utilisateur !

Page 33 du rapport, fin de la section 3.7. Ce mode de traitement, qui fait partie du programme GALE (Global Autonomous Language Exploitation), prévoit trois phases :

la transcription

la traduction

la distillation

La première étape pour pouvoir exploiter les données audio en langue étrangère à des fins de traduction consiste à convertir les discours en texte, c'est la transcription. Les américains nomment ça Speech to Text Transcription (STT). Après quoi le texte est traduit puis « distillé », l'ensemble des opérations étant automatisé par des moteurs de traitement (2.2 Transcription Engine ; 2.3 Translation Engine ; 2.4 Distillation Engine). Aperçu de ce dernier concept :

L'objectif est de parvenir à de très hauts niveaux de performances : 95% de fiabilité et 90-95% de cohérence/justesse sur les traductions depuis l'arabe et le chinois vers l'anglais, afin de pouvoir extraire et fournir des informations clés aux décideurs ayant un degré de pertinence égalant voire dépassant celui des humains.

Si on évalue grossièrement à 60% le degré de fiabilité des systèmes actuels, on peut se faire une idée des progrès qui seront accomplis. Disons qu'après 50 ans de tâtonnements de la recherche en TA, l'évolution sera significative dans les années à venir. Avec des conséquences qu'on peut aisément deviner pour les traducteurs, qui n'en sont plus à une révolution près ! D'ailleurs c'est écrit en toutes lettres :

GALE engines perform both of these processes in a completely automated fashion, without the intervention of human linguists.

Nous voilà fixés, si certains nourrissent encore quelques doutes. Car une fois au point, nous savons très bien que les technologies développées par les militaires sont ensuite industrialisées pour des usages civils. Il serait donc temps que nous remémorions le vieil adage : « Un traducteur averti en vaut deux... »

À noter que sur l'année 2007, la Darpa a budgété +84 millions US$ aux technologies de traduction du langage (language translation technologies), soit 7 millions par mois, ce qui s'appelle "se donner les moyens" ! (source : Human Language Technologies for Europe, p. 32, PDF - 7,7 Mo)

[Début]

* * *

Juste pour donner une idée de l'état de l'art en la matière, voici la synthèse d'un rapport publié par l'OTAN, Research & Technology Organisation, sur « La mise en œuvre des technologies de la parole et du langage dans les environnements militaires » (RTO-TR-IST-037) (PDF en anglais, 4,3 Mo) :

Les communications, le commandement et contrôle, le renseignement et les systèmes d’entraînement font de plus en plus appel à des composants issus des technologies vocales et du traitement du langage naturel : il s’agit de codeurs vocaux, de systèmes C2 à commande vocale, de la reconnaissance du locuteur et du langage, de systèmes de traduction, ainsi que de programmes automatisés d’entraînement. La mise en œuvre de ces technologies passe par la connaissance des performances des systèmes actuels, ainsi que des systèmes qui seront disponibles dans quelques années.
Etant donné l’intégration de plus en plus courante des technologies vocales et du traitement du langage naturel dans les systèmes militaires, il est important de sensibiliser tous ceux qui travaillent dans les domaines de la conception des systèmes et de la gestion des programmes aux capacités, ainsi qu’aux limitations des systèmes de traitement de la parole actuels. Ces personnes devraient également être informées de l’état actuel des travaux de recherche dans ces domaines, afin qu’ils puissent envisager les développements futurs. Cet aspect prendra beaucoup d’importance lors de la considération d’éventuelles améliorations à apporter à de futurs systèmes militaires.
Les textes contenus dans cette publication comprennent des communications sur l’état actuel des connaissances dans ce domaine, ainsi que sur des travaux de recherche en cours sur certaines technologies de la parole et du langage, à savoir : les techniques et les normes d’évaluation, la reconnaissance de la parole, l’identification linguistique, et la traduction.

Technologies déjà disponibles :

Décomposition du traitement de la parole (PDF, 12 Mo) :

[Début]

* * *

2. Localisation sans traduction

L'avenir souhaitable de la traduction sur Internet, selon moi, une évolution de la sphère GILT, une vision que j'ai déjà eu l'occasion de développer dans un discours sur la traduction technique professionnelle prononcé en 2003 à l'université de Rennes 2, lors du Colloque « Traduction et francophonie(s) ; traduire en francophonie », dont j'ai développé les conclusions dans ce billet.

Nous en sommes encore loin, c'est une évidence, même si je me plais à répéter une fois encore ces mots de M. Daniel Gouadec, qui résument parfaitement ma pensée :

L’une des évolutions à court terme pourrait donc porter sur l’assimilation de la « traduction » à une rédaction dans laquelle le document initial servirait uniquement de référence ou source d’informations qui, analysées et synthétisées par le traducteur, seraient ensuite reformulées ou réexprimées selon les contraintes posées par le public, le type de document, et les utilisations voulues ou prévues du document.

(...)

La meilleure façon de traduire est peut-être bien de rédiger d’abord et même de rédiger seulement.

Et dans une grande clairvoyance, il avait nommé ça la « naturalisation ». Le rêve de millions de PME qui voudraient pouvoir offrir (et s'offrir...) sur Internet une présence multilingue de qualité. La demande est là, qui va grandissante au fil des jours, ne reste plus qu'à créer l'offre.

Traducteurs, à bon entendeur... [Début]

Jean-Marie Le Ray

P.S. Pour finir en beauté, juste histoire de montrer que s'il est déjà difficile de se comprendre dans sa propre langue, que donnera le message une fois passé à la moulinette de la TA... [Début]

Upload Video - Top 50 - Get Video Code

C'est en anglais, désolé :-) (Merci Emmanuelle)

Traduction automatique, DARPA, GALE, traduction, localisation, Web-écriture, écriture Web

Pages

mardi 9 mars 2010

Google, traducteur universel

mardi 9 septembre 2008

Google and the Universal Translation Memory

dimanche 31 août 2008

Google et la traduction

mercredi 14 novembre 2007

Traduction et Google, l'apprenti traducteur

mardi 23 octobre 2007

Google, traducteur automatique

jeudi 8 février 2007

No intervening human linguists: est-ce la GALE, Docteur ?