Affichage des articles dont le libellé est traduction. Afficher tous les articles
Affichage des articles dont le libellé est traduction. Afficher tous les articles

jeudi 30 octobre 2014

30 ans de métier, ça se fête !

Après les 20 ans, me voici, déjà !, à la veille de franchir la barre des trente ans de métier, puisque j'ai fait mes premières traductions en 1985.

1985-2015 : 30 ans de métier et 25 ans de société, genèse et histoire d’une formidable aventure professionnelle ! En même temps que l'occasion de vous souhaiter mes meilleurs vœux pour une nouvelle année 2015 pleine de santé et riche en satisfactions :-)


Et pour fêter ça, rien de mieux que de récapituler le contenu que j'ai produit à ce jour sur le sujet (en tout presque une centaine de billets et documents éparpillés sur plusieurs sources), en commençant par l'actualisation de mon curriculum professionnel sous forme d'infographie :

      

Que de chemin parcouru depuis, de dizaines de milliers de pages traduites et de mois d'interprétation en France et en Italie !

En parallèle, voilà près de 10 ans que j'ai affiné ma connaissance et ma compréhension d'Internet, notamment grâce à ce blog, en commettant des centaines de billets sur les acteurs majeurs du Web.

Une double accumulation d'expérience que j'ai voulu partager dès 2011 en mettant au point des formations au branding / marketing plus particulièrement dédiées aux traducteurs - interprètes, étudiants ou professionnels, notamment en Italie, Mais j'ai en projet pour 2015 de dispenser ces formations aussi dans des universités françaises avec lesquelles je suis en contact :


Le grand saut, by Jean-Marie Le Ray

* * *

Je m'étais déjà livré à cet exercice en janvier 2011, avec le billet Ads & Marketing Translator, que je ne résiste pas à actualiser ici :
Ce blog est né il y a presque dix ans (déjà !), à l'enseigne de la traduction publicitaire et marketing, Adscriptor signifiant à l'origine Ads & Marketing Translator!
Un néologisme avec une double trace signifiante, où l'on a une superposition d'Ad - ou Ads - (Advertisement en anglais, l'équivalent de notre "pub") et de Scriptor, mot latin qui a la même racine que Scriptum (comme dans P.S., l'écrit) ou Scriptura (écriture) et a plusieurs sens en latin : secrétaire, copiste, écrivain, auteur, rédacteur, et même législateur, ou encore historien (celui qui rédige...). Ceci dit, le nom « Adscriptor » a encore d'autres caractéristiques, puisque c'est également un mot qui existe en espagnol (où il qualifie la fonction spécifique d'un professeur, malgré mes recherches je n'ai jamais très bien compris de quoi il s'agit vraiment), formé à partir de deux autres morphèmes existants, un mot et un préfixe latins.
Mais 830 billets plus tard, que d'eau a coulé sous les ponts...

Pour autant l'envie m'a pris de dépoussiérer un peu le filon "traduction" (ne pas confondre avec le tag "laboratoire de traduction", qui recouvre des billets traduits de l'anglais ou de l'italien vers le français), soit une trentaine de billets publiés sur le sujet, dans lesquels je m'efforce de faire un peu le tour de la situation, en évolution permanente.

Or vu que je suis en train de préparer une journée de formation sur le marketing pour des traducteurs-interprètes italiens, j'avais besoin de me replonger dans le bain en relisant ce que j'ai écrit, et notamment sur le binôme Google-Traduction (PDF complet, 4Mo):
mais également sur la traduction en général, et sur la communication multilingue en particulier :
En parallèle j’ai traité de la « foule-traitance », (crowdsourcing) de Facebook (7 janvier 2008), en approfondissant sa localisation quelques mois plus tard dans le cadre de mes quelque 90 billets sur le phénomène Facebook, ou encore, dans le genre « boutade », relaté l’épisode sur le traducteur facétieux et l'ego de Sarko (30 avril 2007) (ego bien connu, par ailleurs…), et même les traductions du Petit Prince !

Question terminologie, je me suis essayé à la création d’un moteur de terminologie, Translation 2.0, mis en ligne le 28 mars 2007, et d’un glossaire comptable multilingue : XBRL.name.

Sans oublier une « Réflexion quasi-philosophique poétique sur la terminologie et son évolution souhaitable » (3 juillet 2007) qui vaut ce qu’elle vaut, ainsi que la suite : « Welcome to the Word Century ».

Idem pour mes conseils sur le déploiement de la traduction automatique en entreprise (août 2008) (version italienne), qui m’ont valu d’être contacté il y a quelques mois pour occuper un poste de Directeur en charge du département linguistique d’une grande banque tunisienne : « The Director, Language Services Department (CLSD) will perform under the general supervision of the Vice-President, Corporate Services (CSVP) and will be based in Tunis, Tunisia. »

J’ai décliné pour ne pas imposer un changement de pays à ma femme et mon fils, même si j’étais loin de penser à l’actualité de ces dernières semaines…

Terminons ce récapitulatif par un passage en revue des principales places de marché dédiées aux traducteurs et à la traduction sur le Web : Top 20 of main Translators & Translation Workplaces & Marketplaces (12 novembre 2008).

En conclusion, après avoir annoncé il y a presque 3 ans le compte à rebours (25 février 2008) de Translation 2.0 Open Project - TOP², basé sur une vieille idée d’ontologie de la traduction dans le monde, un projet qui s'est plutôt avéré être un triste poisson d'avril, et après avoir fêté les 20 ans de bons et loyaux services du Studio 92 Snc (27 février 2009), l’été dernier j’ai finalement changé la raison sociale de ma société, aujourd’hui : Translation 2.0 S.a.s.

L’aventure continue dans la traduction, belle
infidèleinconnue !
* * *

Un contenu que j'ai étoffé depuis, de la landing page dédiée (version italienne) aux neuf parcours possibles de création d'une « accroche », en passant par toute une série de billets, dont un triptyque intitulé « Moi et les autres » :
  1. Se (faire) connaître comme traducteur
  2. Le marché mondial de la traduction et les 5 forces de Porter
  3. Identifier MON propre marché de la traduction pour me positionner par rapport à la concurrence
Jusqu'aux récentes pistes de business plan pour traducteurs - interprètes :

Business plan pour traducteurs - interprètes from Jean-Marie Le Ray

Un contenu plutôt riche, donc, agrémenté de deux interviews, l'une en italien avec Massimo Marchiori sur le regretté Volunia (voir en français ici, et là encore), et l'autre avec Dominique Cozette sur le poldo-moldave (a must read !), sans oublier mes digressions sur l'univers conceptuel de la gamification (en anglais) ou sur la sémantique événementielle et sociale ..., qui m'offre une transition toute trouvée pour conclure, puisque je vais tenter d'analyser cette masse de contenus afin d'en extraire le nuage sémantique, à savoir quels sont les concepts les plus fréquemment traités au plan statistique. Naturellement, pour des raisons pratiques, je me limiterai aux articles et documents rédigés en français et dont les liens sont présents dans ce billet. Que je publie en attendant, car l'analyse va me demander du temps, et je l'ajouterai en P.S. lorsqu'elle sera terminée.



P.S. J'ai donc formé un corpus à partir des liens en français du billet, pour un total de 90.968 mots, que j'ai traités statistiquement pour en extraire les 54 termes significatifs ayant plus de 50 occurrences, dont voici le nuage sémantique pondéré :


Et pour être plus clair, je joins le tableau correspondant (dont j'ai éliminé les mots vides) avec le nombre exact d'occurrences :


Tels sont les concepts que j'ai traités le plus souvent dans mes billets dédiés à la traduction. [Début]


Documents sur SlideShare


vendredi 21 janvier 2011

Ads & Marketing Translator

Lire mon dossier complet sur le binôme Google - Traduction (PDF, 4Mo)

Ce blog est né il y a presque six ans (déjà !), à l'enseigne de la traduction publicitaire et marketing, Adscriptor signifiant à l'origine Ads & Marketing Translator!
Un néologisme avec une double trace signifiante, où l'on a une superposition d'Ad - ou Ads - (Advertisement en anglais, l'équivalent de notre "pub") et de Scriptor, mot latin qui a la même racine que Scriptum (comme dans P.S., l'écrit) ou Scriptura (écriture) et a plusieurs sens en latin : secrétaire, copiste, écrivain, auteur, rédacteur, et même législateur, ou encore historien (celui qui rédige...). Ceci dit, le nom « Adscriptor » a encore d'autres caractéristiques, puisque c'est également un mot qui existe en espagnol (où il qualifie la fonction spécifique d'un professeur, malgré mes recherches je n'ai jamais très bien compris de quoi il s'agit vraiment), formé à partir de deux autres morphèmes existants, un mot et un préfixe latins.
Mais 730 billets plus tard, que d'eau a coulé sous les ponts...

Pour autant l'envie m'a pris de dépoussiérer un peu le filon "traduction" (ne pas confondre avec le tag "laboratoire de traduction", qui recouvre des billets traduits de l'anglais ou de l'italien vers le français), soit une trentaine de billets publiés sur le sujet, dans lesquels je m'efforce de faire un peu le tour de la situation, en évolution permanente.

Or vu que je suis en train de préparer une journée de formation sur le marketing pour des traducteurs-interprètes italiens, j'avais besoin de me replonger dans le bain en relisant ce que j'ai écrit, et notamment sur le binôme Google-Traduction (PDF complet, 4Mo):
mais également sur la traduction en général, et sur la communication multilingue en particulier :
En parallèle j’ai traité de la « foule-traitance », (crowdsourcing) de Facebook (7 janvier 2008), en approfondissant sa localisation quelques mois plus tard dans le cadre de mes quelque 90 billets sur le phénomène Facebook, ou encore, dans le genre « boutade », relaté l’épisode sur le traducteur facétieux et l'ego de Sarko (30 avril 2007) (ego bien connu, par ailleurs…), et même les traductions du Petit Prince !

Question terminologie, je me suis essayé à la création d’un moteur de terminologie, Translation 2.0, mis en ligne le 28 mars 2007, et d’un glossaire comptable multilingue : XBRL.name.

Sans oublier une « Réflexion quasi-philosophique poétique sur la terminologie et son évolution souhaitable » (3 juillet 2007) qui vaut ce qu’elle vaut...

Idem pour mes conseils sur le déploiement de la traduction automatique en entreprise (août 2008), qui m’ont valu d’être contacté il y a quelques mois pour occuper un poste de Directeur en charge du département linguistique d’une grande banque tunisienne : « The Director, Language Services Department (CLSD) will perform under the general supervision of the Vice-President, Corporate Services (CSVP) and will be based in Tunis, Tunisia. »

J’ai décliné pour ne pas imposer un changement de pays à ma femme et mon fils, même si j’étais loin de penser à l’actualité de ces dernières semaines…

Terminons ce récapitulatif par un passage en revue des principales places de marché dédiées aux traducteurs et à la traduction sur le Web : Top 20 of main Translators & Translation Workplaces & Marketplaces (12 novembre 2008).

En conclusion, après avoir annoncé il y a presque 3 ans le compte à rebours (25 février 2008) de Translation 2.0 Open Project - TOP², basé sur une vieille idée d’ontologie de la traduction dans le monde, un projet qui s'est plutôt avéré être un triste poisson d'avril, et après avoir fêté les 20 ans de bons et loyaux services du Studio 92 Snc (27 février 2009), l’été dernier j’ai finalement changé la raison sociale de ma société, aujourd’hui : Translation 2.0 S.a.s.

L’aventure continue dans la traduction, belle
infidèleinconnue !

Partager sur Facebook


www.translation2.com

P.S. Cette année je fête 25 ans de métier...

, , , , , , , , , , , ,

mardi 9 mars 2010

Google, traducteur universel


Après avoir introduit le "speech-to-text" (reconnaissance vocale + transcription texte), Google a aussi ajouté la traduction automatique à la volée sur YouTube...

* * *

Ça commence à devenir problématique de trouver des titres que je n'ai pas déjà utilisés pour parler du binôme Google + traduction. Pour autant les progrès que fait la société dans ce secteur, aussi rapides que gigantesques, m'imposent de faire des mises à jour de temps en temps.

Cette fois l'occasion m'en est donnée par un article du New York Times intitulé Putting Google to the Test in Translation, qui compare la traduction humaine d'un extrait de texte avec celles des principaux traducteurs gratuits disponibles sur le Web : Google, Yahoo et Microsoft.

La comparaison du journal porte sur cinq langues source (français, espagnol, russe, allemand et arabe) vers une seule langue cible, l'anglais. Or je ne m'intéresserai ici qu'aux deux premières, tout simplement parce que le texte choisi pour l'extrait est littéraire : Le petit Prince de Saint-Exupéry pour le français, et Cent ans de solitude de García Márquez pour l'espagnol :


Donc, ce qui m'a énormément frappé dans ce texte, c'est que pour la première fois j'avais sous les yeux la preuve absolue de ce que j'énonçais il y a plus d'un an et demi dans Google et la traduction, à propos du concept de mémoire de traduction universelle :
Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.

(...)

Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
Or les deux échantillons pris en exemple par le New York Times montrent que Google construit bien cette mémoire !

En effet, par rapport à la traduction humaine, celle de Google est identique à près de 65% pour Le petit Prince (38 mots sur 59 qui forment des séquences équivalentes) et carrément à 99% pour Cent ans de solitude !!!

D'où une distanciation abyssale, en termes qualitatifs, vis-à-vis des deux autres traducteurs, qui ne réussiront jamais à combler leur retard s'ils ne passent pas à des modèles de traduction automatique fondés sur le couple "linguistique de corpus" + "analyse statistique". Et bien au contraire, l'écart se creusera démesurément au profit de Google et aux dépens de ses concurrents.

C'est là tout l'enjeu des mémoires de traduction à très grande échelle implémentées par Google :
Comme l'explique fort bien Franz Josef Och, responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
  1. augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
  2. augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la
mémoire de l'humanité...
[MàJ - 10 mars 2010] Grâce à ce tweet de Christophe Asselin, je découvre les chiffres suivants :
Pour modéliser un langage, Google a besoin d'environ un milliard de mots, employés dans des combinaisons différentes. Pour l'anglais, l'entreprise a injecté « plusieurs centaines de milliards » de termes, selon le New York Times.
Donc, là encore, les prodigieuses capacités de calcul de Google, couplées à une approche d' « intelligence hybride » associant l'homme et la machine, font la différence. Google l'explique ainsi :
If you have access to enormous datasets, it opens up whole new avenues for scientific discovery and for solving problems. For example, Google's machine translation tools take advantage of "parallel texts": documents that have been translated by humans from one language to another, with both forms available. By comparing the sentences from enormous numbers of parallel texts, machine translation tools can develop effective translation tools using simple probabilistic approaches. The results are better than any previous attempts at computerized translation, but only if there are billions of words available in parallel texts.
Mais ce n'est pas tout ! [Début]

* * *

Prenons l'exemple de mon dernier billet, dans lequel il y a une vidéo qui affiche un bandeau avec capture automatique du texte source, obtenue par reconnaissance vocale.

Et bien le texte correspondant ne réside que dans la mémoire de Google, il n'est pas disponible en ligne. Par conséquent pour le traduire en français, j'ai dû d'abord le retranscrire intégralement en italien afin d'avoir le texte, qui n'est maintenant disponible en ligne que sur mon blog italien et sur la plateforme de blogging.

Première constatation : la capture en italien est fiable à 100%.
Deuxième constatation : une fois que Google détecte la traduction du texte source, vous pouvez être sûr que le bitexte part dans la mémoire qui alimente son système de traduction automatique.

Voilà pourquoi j'annonçais cette nouveauté il y a déjà presque 4 ans :
... une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste... (et) je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ?
Car en fait, qu'il s'agisse des données images, vidéo ou voix, il suffit d'obtenir le texte source dans une première étape, soit par reconnaissance de caractères soit par reconnaissance vocale (pour la téléphonie mobile), et d'appliquer ensuite la traduction automatique au texte obtenu.

Si je garde mon exemple des vidéos sur Youtube, vous sélectionnez la langue d'arrivée de votre choix (mais comptez sur Google pour vous proposer par défaut votre langue maternelle) et vous obtenez dans le bandeau le texte traduit. Du sous-titrage automatique à la volée.

Et enfin, pour la téléphonie mobile, il suffira d'appliquer la synthèse vocale au texte traduit pour entendre dans son oreillette la version parlée. C'est ce que promet déjà Microsoft, et ce qu'a déjà annoncé Google...

Si vous voulez tester, la fonction est disponible sur Google Translate : cliquez sur l'icône du haut-parleur (que j'ai signalée par une flèche) pour entendre la version parlée du texte traduit !


[Début]


Partager sur Facebook

P.S. Quand on dit que le hasard fait bien les choses, je viens juste de découvrir par un tweet que la version bêta de la traduction automatique est disponible sur Youtube !!!

Donc, vous paramétrez la langue :


Et voilà le travail...


Pour finir, je découvre que la fonctionnalité "traduction" sur Youtube est en ligne depuis deux ans !

Que dire ? Ça se voit que je ne m'occupe plus du Web tellement je suis accaparé par le berlusconisme... [Début]

, , , , , , , , , , ,

mardi 9 juin 2009

Google : Centre Universel de Traduction


Annoncé depuis presque un an, nous y sommes !

Sans tambours ni trompettes, Google vient d'annoncer sur son blog chinois (!) (cf. traduction automatique Google en français) la pré-ouverture de son Centre universel de traduction, que je nomme ainsi en référence à la mémoire de traduction universelle que la société va ainsi créer, ou Large-Scale Translation Memory comme ils l'appellent...


Il s'agit non pas de la 21e place de marché dédiée à la traduction, mais bien de la première place de marché du 21e siècle, une véritable révolution en perspective pour les traducteurs du monde entier. Est-ce que cette révolution sera aussi une évolution ? Nous verrons à l'usage...


En attendant, laissez-moi vous présenter le service. Baptisé Google Translator Toolkit, c'est selon moi le préalable à la véritable place de marché, qui permettra de mettre en contact clients et traducteurs sans aucun autre intermédiaire, sinon Google qui offrira gratuitement le poste de travail et les outils traductionnels au milieu. Voyons donc de plus près cette boîte à outils.



En clair, lorsque vous accédez au service :


vous arrivez de suite via votre compte Google sur la page du Centre de Traduction de Google :


puis de là à votre espace de travail, basé sur Google Docs comme nous l'expliquent fort bien (en anglais) Alex Chitu et Tony Ruscoe (via TomHtml, le chenapan ! :)


Vous pouvez alors charger un fichier de votre ordi, traduire une page Web, une page Wikipedia ou un Knol :


Or comme pour l'instant il n'est possible que de traduire de l'anglais vers les autres langues et pas vice-versa, j'ai chargé un de mes billets en anglais intitulé ... Google and the Universal Translation Memory, en nommant le projet (puisque ce sera la page du texte traduit) Centre de traduction Google :


J'arrive alors sur l'espace de travail avec les deux textes en parallèle, avec à gauche l'original (en anglais dans ce cas), et à droite la version française prétraduite automatiquement par Google :


À noter qu'on peut disposer les fenêtres verticalement ou horizontalement, et que l'espace de travail, familier à tous les traducteurs professionnels qui disposent depuis des années déjà d'environnements de traduction organisés de cette manière, se décompose de la façon suivante :


En haut à gauche, vous avez le titre du projet de traduction ; en haut à droite, le nombre de mots du texte et le pourcentage de progression de la traduction ; à gauche le segment de texte surligné en jaune qui est la partie à traduire, et à droite, en regard, une fenêtre éditable avec le texte à traduire et ce que Google appelle des placeholders, pour faire en sorte de traduire sans toucher les balises, et donc sans modifier le formatage du texte.

Dans la partie basse de l'écran, à gauche, vous pouvez charger vos propres glossaires formatés, utiliser des glossaires de traduction, les créer ou en fusionner (taille limitée à 1 Mo), utiliser des mémoires de traduction, les créer ou en fusionner (taille limitée à 50 Mo), les partager (attention : DANGER ! pour les traducteurs professionnels, interdiction ABSOLUE d'utiliser Google pour traduire le matériel confidentiel de vos clients, qui n'apprécieraient pas de retrouver leurs textes sur Internet...), etc. etc.

J'arrête ici cette présentation sommaire, mais vous comprendrez que pour ce blog, né à l'enseigne de la traduction, à laquelle j'ai consacré de nombreux billets en général, et au binôme Google + traduction en particulier (une trentaine de billets en tout dont je publierai bientôt une liste à jour), cette nouvelle est vraiment de celles qui me font l'effet d'une bombe.

Tout comme il est probable qu'elle fera le même effet à toutes les parties prenantes, concernées de près ou de loin par la traduction. J'aurai l'occasion d'y revenir...



Partager sur Facebook

, , , , , , , , ,

dimanche 23 novembre 2008

Dimension sociale de la traduction

Le travail de traducteur n’est pas uniquement individuel, mais aussi social, bien que nombreuses et nombreux soient les réfractaires à une mise en réseau des compétences, des expériences, des ressources…

Des ressources disséminées à travers le Web qui gagneraient certainement à être catégorisées et centralisées derrière un nombre restreint de points d’accès, c’est-à-dire à l’opposé de la situation actuelle, où l’éparpillement règne et rend leur détection difficile.

Car dans l’océan planétaire d’Internet, les mots – ou les termes, si vous préférez – sont les données non structurées par excellence, de par la multiplicité des domaines, des langues, des formats de documents, des publics destinataires et ainsi de suite.

Donc regrouper tout cela sous l’appellation générique de traduction, voire de localisation, ne rend pas justice à la diversité des situations, des contextes, des nécessités, etc.

Sans compter ce que nous appellerons le Web terminologique invisible, notamment les disques durs des traducteurs et des clients qui regorgent de trésors terminologiques enfouis, ne demandant qu’à être découverts.

Naturellement, la confidentialité vis-à-vis de ses données et de ses clients est une chose sérieuse, déontologie oblige, mais tout n’est pas confidentiel, tout n’est pas secret.

Et à force de ne jamais vouloir rien révéler de son travail, on en finit par cacher aussi ce qui pourrait être partagé ! C’est ainsi que le moteur Translation 2.0 est né d’une collection de favoris : près de 5 000 ressources riches en terminologie multilingue, accumulées depuis plus d’une décennie de recherches sur le Web.

Autant en faire profiter d’autres plutôt que de tout conserver stérilement sur mon PC !

Pour citer un autre exemple connu, il suffit de penser aux très riches glossaires multilingues de Microsoft, qui aurait fort bien pu les considérer comme un actif propriétaire et tout garder au seul bénéfice de ses employés. Au contraire, en les mettant gratuitement à la disposition de tous, ce sont plus de 12 000 termes anglais traduits dans près de 60 langues en libre accès !

Donc, pour en revenir à cette fameuse dimension sociale, elle est indispensable à tous les aspects professionnels du métier : chacun/e devant impérativement faire du networking pour se former, s’informer, se mettre à jour, s’entraider, demander conseil, travailler en mode croisé – traducteur + relecteur –, voire organiser des équipes sur les projets complexes, trouver les bonnes ressources, techniques ou terminologiques, échanger des dictionnaires, de la documentation de référence, ou, surtout, pour celles et ceux qui vivent à l’étranger, rester en contact avec leur langue et les implications socioculturelles qu’elle véhicule…

Ce sera en partie l'objet d'une présentation sur l'employabilité des traducteurs que je ferai la semaine prochaine à Hammamet, intitulée « LA TRADUCTION : DE LA FORMATION À L'EMPLOI - Comment utiliser Internet pour une transition réussie ? »

Concluons en disant que la traduction ne concerne pas que les traducteurs de métier, mais plus largement celles et ceux qui s’intéressent aux langues et à leur dimension sociale : comment apprendre à se comprendre au-delà des barrières linguistiques, pour mieux communiquer et partager.

Autrement dit, les internautes de tous pays et de toutes cultures !


Partager sur Facebook

, , , , , ,

jeudi 20 novembre 2008

Large-Scale Translation Memories (Google)

"Large-Scale Translation Memories" by Google, ou les mémoires de traduction à (très) grande échelle...

Après une brève, une longue...

Ce que j'ai appelé "mémoire de traduction universelle", Google l'appelle probablement "very large-scale translation memory". J'ai découvert ça dans mes référents le mois dernier : en cherchant "large-scale translation memories" dans le moteur, un Googler est arrivé sur la version anglaise de mon billet intitulé Google and the Universal Translation Memory !

large-scale translation memories
Expression clé qui ne produit telle quelle aucun résultat aujourd'hui, et tout juste cinq dans sa version au singulier, dont trois uniques :
  1. a soon to be introduced "large-scale Translation Memory" server
  2. a "large scale translation memory" database
  3. implementation of Xerox's XTM "large scale translation memory" system
large-scale translation memory in SERPs
Voilà. Donc à présent rien n'existe qui serait proche de la notion de "mémoire de traduction universelle" telle que la conçoit Google avec son Centre de traduction, pour l'instant encore en version de bêta-test réservée à des testeurs invités.


D'ailleurs si quelqu'un sait comment avoir une invitation, pensez à moi, ce serait sympa !

Pour l'heure, ces Large-Scale Translation Memories, ces mémoires de traduction à grande échelle ne sont implémentées que par de très grosses organisations (Xerox, Union européenne, etc.) et par des LSP d'envergure mondiale. Je me limiterai à mentionner Logoport de Lionbridge, voir ici pour plus de détails.

Cependant, outre qu'elles se confinent au technique (si l'on peut dire), ces mémoires ont le - très - gros défaut d'être propriétaires. En ce sens que lors d'une traduction effectuée sur ces systèmes, la propriété de la mémoire est phagocytée par l'agence, les traducteurs n'ayant plus aucun contrôle sur ce qu'ils produisent...

Idem pour les solutions de traduction automatique déployée en entreprise, dont la mise à disposition de la mémoire, quand elle a lieu, se limite au courtage.

Et même si une initiative open source comme GlobalSight, lancée par Welocalize (qui fait partie de TAUS), devrait voir le jour en janvier 2009, avec Google on change d'échelle. Et de modèle économique (notamment sur les questions de propriété intellectuelle)...

Dans ce cadre, les seules notions de mémoire approchantes qui existent sont, à ma connaissance, les projets TAUS et VLTM, le premier se distinguant davantage par sa portée potentielle, vu le nombre (une quarantaine de membres fondateurs plus une soixantaine de candidats en attente, outre l'implication probable de la Commission européenne) et la qualité des acteurs impliqués, et le deuxième par sa philosophie "libre", plus "grand public" dirons-nous.

* * *

TAUS, Translation Automation User Society, a pour vision et pour mission, via la TAUS Data Association, des objectifs ambitieux, davantage détaillés dans son business plan :
  1. Legitimate and secure platform for storing, sharing and leveraging language data.
  2. Access to large volumes of trusted language data for increased translation automation.
  3. Industry collaboration to promote harmonization of multilingual terminology.
Pour vous donner une idée du sérieux de l'affaire, on compte parmi les membres du Comité de pilotage des représentants de Microsoft, Intel, Sun Microsystems, Welocalize, Adobe et le Bureau de la Traduction du Gouvernement canadien.

Les données linguistiques, ou pour mieux dire, les "actifs linguistiques" seront sélectionnés et centralisés par les membres de l'Association : « TDA will give free access to its databases for the look-up of translations of terms and phrases. Members will be able to select and pool data to increase translation efficiency and improve translation quality. »

Sur la liberté d'accès à tous, il semble plutôt que le portail permettra à l'internaute lambda d'obtenir quelques infos essentielles sur la base, juste histoire de lui donner envie de payer pour pouvoir utiliser les données. Il faudra donc voir la version "live" à l'usage pour juger sur pièce, mais en clair, cette apparente gratuité ne sera qu'un "produit d'appel" pour passer à la caisse...

C'est d'ailleurs pourquoi l'initiative de Google ne laisse pas TAUS indifférent :


Article à lire...

* * *

Par rapport à TAUS, à vocation plus "industrielle", le projet VLTM (Very Large Translation Memory) de Wordfast est davantage "artisanal", puisqu'il suppose l'utilisation du logiciel de TAO, excellent mais quasi exclusivement réservé aux traducteurs de métier.

Ce serait d'ailleurs bien qu'Yves Champollion, que j'ai le plaisir de connaître, communique davantage sur le projet, sur sa philosophie, et donne peut-être quelques stats sur son utilisation.

Pour autant, l'initiative est tout aussi sérieuse que la précédente, parole de Champollion, bon sang ne saurait mentir ! Puisque Jean-François, son aïeul illustre, réussit à déchiffrer les hiéroglyphes grâce à la pierre de Rosette, découverte pendant la campagne d'Égypte, une stèle qui est à proprement parler l'ancêtre des mémoires de traduction (même si maintenant c'est un peu plus compliqué...) !


En effet, cette pierre aligne en parallèle trois inscriptions d'un même texte, dont deux en langue égyptienne et la troisième en grec, langue connue, ce qui a permis le déchiffrement.

* * *

Donc je le répète, et j'insiste lourdement là-dessus, ce qu'il y a de nouveau avec Google dans ce domaine, c'est à la fois l'échelle, superlative, et la rupture totale des modèles économiques pré-existants.



Car comme l'explique fort bien Franz Josef Och, Responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !

Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :
  1. augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
  2. augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la mémoire de l'humanité :
...En nous livrant à un bref exercice de prospective, on peut très facilement imaginer que ... Google pourra ... puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure que sa notre mémoire de traduction universelle prendra forme.

Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (...), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.

Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.

La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...

Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.

Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
Qui n'aura donc plus besoin de chercher "Large-Scale Translation Memories" dans ... Google, en laissant le pluriel aux autres, puisque la société de Mountain View disposera enfin de la très singulière "Very Large-Scale Translation Memory", j'ai nommé The Universal Translation Memory, ou par chez nous LA mémoire de traduction universelle...

Non, vous ne rêvez pas, c'est pour bientôt...


Partager sur Facebook

, , , , , , , , ,