Affichage des articles dont le libellé est moteur de recherche. Afficher tous les articles
Affichage des articles dont le libellé est moteur de recherche. Afficher tous les articles

samedi 29 juillet 2006

Google RS2, traducteur automatique de troisième génération

Google RS2, traducteur automatique de deuxième troisième génération

Here is all the story in English...

Préambule
Cadre de la situation
Qu'est-ce que Google RS2 ? (selon moi :-)
P.S. Qu'est-ce que Google h9 ? (toujours selon moi :-)

* * *
Préambule

Dans mon précédent billet, je vous invitais à lire une info de Zorgloob reprenant un scoop de Tony Ruscoe sur une panoplie de nouveaux services testés par Google.


Pas question de revenir sur le sujet, mais plutôt de tenter d'approfondir l'un de ces services, nom de code Google RS2, déjà déniché par Tony Ruscoe en juin dernier sans avoir la moindre idée de ce dont il s'agissait, et qui nous dit aujourd'hui que ce pourrait être une fonctionnalité en rapport avec le système de traduction automatique sur lequel travaille la firme, puisque le lien pointe vers Google Translate :
The link in the ‘My Account’ page points to Google Translate, so could it be anything to do with the statistical machine translation system that we know Google’s working on?
[Début]
* * *
Cadre de la situation

Étant passionné de traduction autant par goût que par métier, j'avais déjà eu l'occasion d'aborder Google et la traduction automatique, un billet dans lequel je traçais grossièrement les contours du système de Google, dont l'approche :
consiste à gaver les machines de milliards de mots de texte (ce n'est pas la matière première qui lui manque !), ce qu'on appelle la linguistique de corpus (parallèles, alignés ou non), en associant des corpus (ou corpora pour les puristes) monolingues à des bi-textes (en prenant par exemple un site bilingue, ou tri- ou n-lingue, dont les textes sont segmentés puis alignés afin de fournir une mémoire de traduction) pour y appliquer ensuite des techniques d'apprentissage statistiques permettant de construire des modèles de traduction.
Et de constater que Google était vraiment très fort, puisque, dernier arrivé dans le domaine de la TA (où les places sont chères, par ailleurs), la société se classait au premier rang (note : 0.5131) en devançant IBM (0.4646), etc., et en se détachant très nettement de Systran (0.1079), aussi bien pour la paire linguistique chinois-anglais qu'arabe-anglais, selon les résultats officiels de l'évaluation sur la traduction automatique faite par le National Institute of Standards and Technology : NIST 2005 - Machine Translation Evaluation Official Results.

Or l'édition 2006 s'est terminée hier, comme indiqué sur le Formulaire d'enregistrement au 2006 NIST Machine Translation Evaluation :


Donc, les participants ont reçu le test confidentiel de traduction automatique par courriel le 24 et l'ont rendu hier à 16h (12h EDT). Selon le protocole, le test devrait globalement se composer de textes (environ 40 mille mots), mais aussi de discours, il s'agit donc d'une évaluation données-voix. Documentation supplémentaire ici.

Pour preuve que Google a de la suite dans les idées, consultez les diapositives du Google Inc. Factory Tour du 19 mai 2005, et notamment les numéros 135 :


qui réaffirme la mission de Google, 136 :


puis de 137 à 140, qui donnent un aperçu de la précision du système (ici la n° 140) :


et enfin 145, dans le prolongement direct de ce qui précède et en rapport tout aussi direct avec ce qui suit...

[Début]
* * *
Première constatation

Le système de TA de Google est la fine fleur des technologies de pointe, ce qui se fait de mieux en la matière (le moment venu, nous verrons d'ailleurs si les résultats 2006 confirment ceux de 2005, mais je ne doute pas un instant que, là aussi, Google se classera premier), et n'a absolument aucun rapport avec ce qu'on trouve actuellement sur la page de Google translate, qui n'est autre que Systran (bien que ce ne soit pas mentionné sur sa page de FAQ). Donc, pour l'instant, Christophe Asselin a encore raison :-)

J'en ai d'ailleurs la preuve ! J'avais précédemment tenté une expérience, relatée ici, en retraduisant du français vers l'anglais, avec l'outil de TA de Yahoo (Babelfish), un extrait (traduit de l'anglais vers le français) de mon billet sur la dérive publicitaire sur Internet et les incohérences de Google, afin de tester la pertinence de la traduction automatique sur Internet. J'ai donc soumis le même extrait à Google translate  :

Le résultat est concluant :


J'ai mis l'intégralité des deux traductions de l'extrait, identiques à la virgule près, dans un PDF téléchargeable, car le tableau est trop long et mange la moitié du billet, déjà abondant par lui-même... [Début]

* * *
Qu'est-ce que Google RS2 ? (My guess)

Selon moi, la première inférence, évidente, est que Google RS2 n'a absolument rien à voir avec la page vers laquelle renvoie le lien, ni même avec la fonctionnalité de TA telle qu'on la connaît aujourd'hui (Systran). Voilà deux jours que je me perds en conjectures sur la signification possible de RS2, qui ne me dit absolument rien comme acronyme lié à la traduction. Et pourtant, j'en connais des sigles. Alors quoi, so what ?

Je vous livre la conclusion de mes élucubrations, ou, pour mieux dire, de mon intuition : RS2, nom de code de Google, = RSS (S2 = deux "S"), et le lien avec la traduction serait la mise à disposition par Google d'un service de traduction automatique des flux de syndication, pour traduire à la volée des fils RSS ou de podcasts de/vers n'importe quelle langue (à plein régime, puisque selon toute probabilité, cette fonction sera initialement "bridée" aux langues principales...).

Un service de cette nature existe déjà : NATIVETEXT


« Service gratuit qui traduit les flux RSS des blogs et des podcasts dans votre langue. Ce service s’opére grâce à la communauté car la traduction se fait par les membres et non par un système informatique. On parle de Syndication de Langue d’Origine (Native Language Syndication)
Utilisation très simple :
- créez votre compte
- ajoutez votre flux
- choissisez vos langues de traductions
- répondez à un petit questionnaire pour renseigner les traducteurs
- bienvenue au reste du monde !!
»

Source : Aurigance (pour une fois, c'est pas moi qui traduis :-)

Conclusion

La différence tient en un mot : le service de Nativetext est COMMUNAUTAIRE, celui de Google AUTOMATIQUE.
Oui, un mot qui fait toute la différence. [Début]


P.S.1 Deuxième constatation

Cette hypothèse doit absolument être mise en rapport avec cette info : Google et la recherche vocale, puisqu'une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste...

RS2 P.S.2 Je me plante peut-être, et si vous avez autre chose à proposer, je suis preneur. Pour autant, je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ? Pas moi, c'est sûr :-)

P.S.3 Tiens, juste parce que je me sens en forme, je vous livre une autre intuition à propos de Weaver, dont Zorgloob nous dit : « aucune information sur ce service dont le lien pointe vers http://www.google.com/h9 ». D'après moi, ce n'est ni une allusion au tisserand (traduction de weaver en français) ni à Google Health, mais à Sigourney Weaver dans Futurama (in Love and Rocket), qui double un personnage parodiant HAL 9000, le Supercomputer, « ordinateur exceptionnel doué d'intelligence et de parole », dans 2001 : l'odyssée de l'espace.

Or en langage Google, HAL 9000 (h9) est « The Ultimate Search Engine » :

Google h9 - HAL 9000 - The Ultimate Search Engine
Diapositive n° 131 du Google Inc. Factory Tour du 19 mai 2005. On comprend pourquoi l'URL n'est plus accessible ! (moi, la photo, elle me fait penser à Big Brother...) [Début]

Pour approfondir (en français) :

I - Google h9, « the Ultimate Search Engine »
II - Google h9, « crack the code »

Tags , , , , , , , , , , , , , , , , , ,