Adscriptor: Large-Scale Translation Memories (Google)

"Large-Scale Translation Memories" by Google, ou les mémoires de traduction à (très) grande échelle...

Après une brève, une longue...

Ce que j'ai appelé "mémoire de traduction universelle", Google l'appelle probablement "very large-scale translation memory". J'ai découvert ça dans mes référents le mois dernier : en cherchant "large-scale translation memories" dans le moteur, un Googler est arrivé sur la version anglaise de mon billet intitulé Google and the Universal Translation Memory !

Expression clé qui ne produit telle quelle aucun résultat aujourd'hui, et tout juste cinq dans sa version au singulier, dont trois uniques :

a soon to be introduced "large-scale Translation Memory" server

a "large scale translation memory" database

implementation of Xerox's XTM "large scale translation memory" system

Voilà. Donc à présent rien n'existe qui serait proche de la notion de "mémoire de traduction universelle" telle que la conçoit Google avec son Centre de traduction, pour l'instant encore en version de bêta-test réservée à des testeurs invités.

D'ailleurs si quelqu'un sait comment avoir une invitation, pensez à moi, ce serait sympa !

Pour l'heure, ces Large-Scale Translation Memories, ces mémoires de traduction à grande échelle ne sont implémentées que par de très grosses organisations (Xerox, Union européenne, etc.) et par des LSP d'envergure mondiale. Je me limiterai à mentionner Logoport de Lionbridge, voir ici pour plus de détails.

Cependant, outre qu'elles se confinent au technique (si l'on peut dire), ces mémoires ont le - très - gros défaut d'être propriétaires. En ce sens que lors d'une traduction effectuée sur ces systèmes, la propriété de la mémoire est phagocytée par l'agence, les traducteurs n'ayant plus aucun contrôle sur ce qu'ils produisent...

Idem pour les solutions de traduction automatique déployée en entreprise, dont la mise à disposition de la mémoire, quand elle a lieu, se limite au courtage.

Et même si une initiative open source comme GlobalSight, lancée par Welocalize (qui fait partie de TAUS), devrait voir le jour en janvier 2009, avec Google on change d'échelle. Et de modèle économique (notamment sur les questions de propriété intellectuelle)...

Dans ce cadre, les seules notions de mémoire approchantes qui existent sont, à ma connaissance, les projets TAUS et VLTM, le premier se distinguant davantage par sa portée potentielle, vu le nombre (une quarantaine de membres fondateurs plus une soixantaine de candidats en attente, outre l'implication probable de la Commission européenne) et la qualité des acteurs impliqués, et le deuxième par sa philosophie "libre", plus "grand public" dirons-nous.

* * *

TAUS, Translation Automation User Society, a pour vision et pour mission, via la TAUS Data Association, des objectifs ambitieux, davantage détaillés dans son business plan :

Legitimate and secure platform for storing, sharing and leveraging language data.

Access to large volumes of trusted language data for increased translation automation.

Industry collaboration to promote harmonization of multilingual terminology.

Pour vous donner une idée du sérieux de l'affaire, on compte parmi les membres du Comité de pilotage des représentants de Microsoft, Intel, Sun Microsystems, Welocalize, Adobe et le Bureau de la Traduction du Gouvernement canadien.

Les données linguistiques, ou pour mieux dire, les "actifs linguistiques" seront sélectionnés et centralisés par les membres de l'Association : « TDA will give free access to its databases for the look-up of translations of terms and phrases. Members will be able to select and pool data to increase translation efficiency and improve translation quality. »

Sur la liberté d'accès à tous, il semble plutôt que le portail permettra à l'internaute lambda d'obtenir quelques infos essentielles sur la base, juste histoire de lui donner envie de payer pour pouvoir utiliser les données. Il faudra donc voir la version "live" à l'usage pour juger sur pièce, mais en clair, cette apparente gratuité ne sera qu'un "produit d'appel" pour passer à la caisse...

C'est d'ailleurs pourquoi l'initiative de Google ne laisse pas TAUS indifférent :

Article à lire...

* * *

Par rapport à TAUS, à vocation plus "industrielle", le projet VLTM (Very Large Translation Memory) de Wordfast est davantage "artisanal", puisqu'il suppose l'utilisation du logiciel de TAO, excellent mais quasi exclusivement réservé aux traducteurs de métier.

Ce serait d'ailleurs bien qu'Yves Champollion, que j'ai le plaisir de connaître, communique davantage sur le projet, sur sa philosophie, et donne peut-être quelques stats sur son utilisation.

Pour autant, l'initiative est tout aussi sérieuse que la précédente, parole de Champollion, bon sang ne saurait mentir ! Puisque Jean-François, son aïeul illustre, réussit à déchiffrer les hiéroglyphes grâce à la pierre de Rosette, découverte pendant la campagne d'Égypte, une stèle qui est à proprement parler l'ancêtre des mémoires de traduction (même si maintenant c'est un peu plus compliqué...) !

En effet, cette pierre aligne en parallèle trois inscriptions d'un même texte, dont deux en langue égyptienne et la troisième en grec, langue connue, ce qui a permis le déchiffrement.

* * *

Donc je le répète, et j'insiste lourdement là-dessus, ce qu'il y a de nouveau avec Google dans ce domaine, c'est à la fois l'échelle, superlative, et la rupture totale des modèles économiques pré-existants.

Car comme l'explique fort bien Franz Josef Och, Responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :

augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.

Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la mémoire de l'humanité :

...En nous livrant à un bref exercice de prospective, on peut très facilement imaginer que ... Google pourra ... puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (...), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...

Qui n'aura donc plus besoin de chercher "Large-Scale Translation Memories" dans ... Google, en laissant le pluriel aux autres, puisque la société de Mountain View disposera enfin de la très singulière "Very Large-Scale Translation Memory", j'ai nommé The Universal Translation Memory, ou par chez nous LA mémoire de traduction universelle...

Non, vous ne rêvez pas, c'est pour bientôt...

Jean-Marie Le Ray