samedi 29 juillet 2006

Google RS2, traducteur automatique de troisième génération

Google RS2, traducteur automatique de deuxième troisième génération

Here is all the story in English...

Préambule
Cadre de la situation
Qu'est-ce que Google RS2 ? (selon moi :-)
P.S. Qu'est-ce que Google h9 ? (toujours selon moi :-)

* * *
Préambule

Dans mon précédent billet, je vous invitais à lire une info de Zorgloob reprenant un scoop de Tony Ruscoe sur une panoplie de nouveaux services testés par Google.


Pas question de revenir sur le sujet, mais plutôt de tenter d'approfondir l'un de ces services, nom de code Google RS2, déjà déniché par Tony Ruscoe en juin dernier sans avoir la moindre idée de ce dont il s'agissait, et qui nous dit aujourd'hui que ce pourrait être une fonctionnalité en rapport avec le système de traduction automatique sur lequel travaille la firme, puisque le lien pointe vers Google Translate :
The link in the ‘My Account’ page points to Google Translate, so could it be anything to do with the statistical machine translation system that we know Google’s working on?
[Début]
* * *
Cadre de la situation

Étant passionné de traduction autant par goût que par métier, j'avais déjà eu l'occasion d'aborder Google et la traduction automatique, un billet dans lequel je traçais grossièrement les contours du système de Google, dont l'approche :
consiste à gaver les machines de milliards de mots de texte (ce n'est pas la matière première qui lui manque !), ce qu'on appelle la linguistique de corpus (parallèles, alignés ou non), en associant des corpus (ou corpora pour les puristes) monolingues à des bi-textes (en prenant par exemple un site bilingue, ou tri- ou n-lingue, dont les textes sont segmentés puis alignés afin de fournir une mémoire de traduction) pour y appliquer ensuite des techniques d'apprentissage statistiques permettant de construire des modèles de traduction.
Et de constater que Google était vraiment très fort, puisque, dernier arrivé dans le domaine de la TA (où les places sont chères, par ailleurs), la société se classait au premier rang (note : 0.5131) en devançant IBM (0.4646), etc., et en se détachant très nettement de Systran (0.1079), aussi bien pour la paire linguistique chinois-anglais qu'arabe-anglais, selon les résultats officiels de l'évaluation sur la traduction automatique faite par le National Institute of Standards and Technology : NIST 2005 - Machine Translation Evaluation Official Results.

Or l'édition 2006 s'est terminée hier, comme indiqué sur le Formulaire d'enregistrement au 2006 NIST Machine Translation Evaluation :


Donc, les participants ont reçu le test confidentiel de traduction automatique par courriel le 24 et l'ont rendu hier à 16h (12h EDT). Selon le protocole, le test devrait globalement se composer de textes (environ 40 mille mots), mais aussi de discours, il s'agit donc d'une évaluation données-voix. Documentation supplémentaire ici.

Pour preuve que Google a de la suite dans les idées, consultez les diapositives du Google Inc. Factory Tour du 19 mai 2005, et notamment les numéros 135 :


qui réaffirme la mission de Google, 136 :


puis de 137 à 140, qui donnent un aperçu de la précision du système (ici la n° 140) :


et enfin 145, dans le prolongement direct de ce qui précède et en rapport tout aussi direct avec ce qui suit...

[Début]
* * *
Première constatation

Le système de TA de Google est la fine fleur des technologies de pointe, ce qui se fait de mieux en la matière (le moment venu, nous verrons d'ailleurs si les résultats 2006 confirment ceux de 2005, mais je ne doute pas un instant que, là aussi, Google se classera premier), et n'a absolument aucun rapport avec ce qu'on trouve actuellement sur la page de Google translate, qui n'est autre que Systran (bien que ce ne soit pas mentionné sur sa page de FAQ). Donc, pour l'instant, Christophe Asselin a encore raison :-)

J'en ai d'ailleurs la preuve ! J'avais précédemment tenté une expérience, relatée ici, en retraduisant du français vers l'anglais, avec l'outil de TA de Yahoo (Babelfish), un extrait (traduit de l'anglais vers le français) de mon billet sur la dérive publicitaire sur Internet et les incohérences de Google, afin de tester la pertinence de la traduction automatique sur Internet. J'ai donc soumis le même extrait à Google translate  :

Le résultat est concluant :


J'ai mis l'intégralité des deux traductions de l'extrait, identiques à la virgule près, dans un PDF téléchargeable, car le tableau est trop long et mange la moitié du billet, déjà abondant par lui-même... [Début]

* * *
Qu'est-ce que Google RS2 ? (My guess)

Selon moi, la première inférence, évidente, est que Google RS2 n'a absolument rien à voir avec la page vers laquelle renvoie le lien, ni même avec la fonctionnalité de TA telle qu'on la connaît aujourd'hui (Systran). Voilà deux jours que je me perds en conjectures sur la signification possible de RS2, qui ne me dit absolument rien comme acronyme lié à la traduction. Et pourtant, j'en connais des sigles. Alors quoi, so what ?

Je vous livre la conclusion de mes élucubrations, ou, pour mieux dire, de mon intuition : RS2, nom de code de Google, = RSS (S2 = deux "S"), et le lien avec la traduction serait la mise à disposition par Google d'un service de traduction automatique des flux de syndication, pour traduire à la volée des fils RSS ou de podcasts de/vers n'importe quelle langue (à plein régime, puisque selon toute probabilité, cette fonction sera initialement "bridée" aux langues principales...).

Un service de cette nature existe déjà : NATIVETEXT


« Service gratuit qui traduit les flux RSS des blogs et des podcasts dans votre langue. Ce service s’opére grâce à la communauté car la traduction se fait par les membres et non par un système informatique. On parle de Syndication de Langue d’Origine (Native Language Syndication)
Utilisation très simple :
- créez votre compte
- ajoutez votre flux
- choissisez vos langues de traductions
- répondez à un petit questionnaire pour renseigner les traducteurs
- bienvenue au reste du monde !!
»

Source : Aurigance (pour une fois, c'est pas moi qui traduis :-)

Conclusion

La différence tient en un mot : le service de Nativetext est COMMUNAUTAIRE, celui de Google AUTOMATIQUE.
Oui, un mot qui fait toute la différence. [Début]


P.S.1 Deuxième constatation

Cette hypothèse doit absolument être mise en rapport avec cette info : Google et la recherche vocale, puisqu'une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste...

RS2 P.S.2 Je me plante peut-être, et si vous avez autre chose à proposer, je suis preneur. Pour autant, je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ? Pas moi, c'est sûr :-)

P.S.3 Tiens, juste parce que je me sens en forme, je vous livre une autre intuition à propos de Weaver, dont Zorgloob nous dit : « aucune information sur ce service dont le lien pointe vers http://www.google.com/h9 ». D'après moi, ce n'est ni une allusion au tisserand (traduction de weaver en français) ni à Google Health, mais à Sigourney Weaver dans Futurama (in Love and Rocket), qui double un personnage parodiant HAL 9000, le Supercomputer, « ordinateur exceptionnel doué d'intelligence et de parole », dans 2001 : l'odyssée de l'espace.

Or en langage Google, HAL 9000 (h9) est « The Ultimate Search Engine » :

Google h9 - HAL 9000 - The Ultimate Search Engine
Diapositive n° 131 du Google Inc. Factory Tour du 19 mai 2005. On comprend pourquoi l'URL n'est plus accessible ! (moi, la photo, elle me fait penser à Big Brother...) [Début]

Pour approfondir (en français) :

I - Google h9, « the Ultimate Search Engine »
II - Google h9, « crack the code »

Tags , , , , , , , , , , , , , , , , , ,

5 commentaires:

TOMHTML a dit…

si c'est ça bravo car vous aurez vraiment tout compris :)
Le "RS2 = RSS" personne n'y avait pensé jusqu'alors...

JB Boisseau a dit…

Bravo, quoi de mieux qu'un épisode de Futurama pour deviner l'avenir ?

Anonyme a dit…

Ah, la révolution Google ;-)
J'ai lu avec attention votre billet, et j'attend impatiemment la sortie officielle de Google RS2 pour savoir si vous avez raison ou pas.
Seulement, je ne vous rejoins pas dans l'idée que ce que nous prépare Google est révolutionnaire. En fait, avec le temps, je trouve plein de qualificatifs élogieux pour caractériser Google, mais pas celui de révolutionnaire. En effet, il applique les techniques actuelles avec des moyens qui dépassent largement les plus grandes universités, et assure une visibilité à cette technologie. Mais bon, cela n'est pas révolutionnaire pour autant. Google est rarement le premier à faire quelque chose sur le Web, mais souvent, quand il lance son produit, ce dernier écrase l'innovateur soit en publicité, soit en fonctionnalité. Et je ne trouve pas cela négatif, car souvent, come je l'ai dit plus haut, cela assure une visibilité concrète sur des technologie souvent pointue et connue uniquement des spécialistes du domaine.
Mon regret concernant Google Translate est le choix des langues proposées, étant belge, et travaillant dans un milieu bilingue, j'aurai bien aimé y retrouvé le néerlandais. Mais bon, il me reste Babelfish ;-)

Jean-Marie Le Ray a dit…

Manu,

J'emploie révolutionnaire à dessein, et je confirme mon choix, qui se réfère uniquement, dans le contexte, à la technologie de traduction automatique de Google, et non pas au service en lui même.
Si vous travaillez en milieu linguistique, vous savez aussi bien que moi que la TA a stagné pendant 50 ans, pratiquement depuis la fin de la deuxième guerre mondiale, avec beaucoup d'utopies détrompées et peu d'avancées significatives.
Jusqu'à ce que Google arrive, détrône les tout premiers, dont IBM et Systran, qui sont quand même, rappelons-le, des pointures.
Et il fait non seulement pour le texte, mais aussi pour la voix. Je suis époustouflé, émerveillé même, par cette capacité de Google d'être en rupture là où on ne l'attend pas. Et qu'on ne me dise pas que lorsqu'on pense à Google, on pense à traduction automatique.
Demain, peut-être. Aujourd'hui, non.
En outre, comme je le laisse entrevoir en fin de billet (en PS1), cette technologie dépasse largement le seul domaine de la syndication, pour s'étendre à une infinité de fonctionnalités, de services, dont la téléphonie.
C'est sans fin, et, pour moi, révolutionnaire. Seul Microsoft (pas même Yahoo) aurait peut-être eu les moyens d'en faire autant, mais malheureusement Bill Gates a raté le train du Web 1.0, et prendre celui du Web 2.0 en marche ne lui suffira jamais à rattraper son retard, tant en termes de services que ... d'image perçue dans l'immense peuple des internautes.
Un dernier mot sur Google Translate et Babelfish, comme je le montre dans mon billet, la technologie sous-jacente est la même : Systran. Donc, tant que Google, n'utilise pas sa propre technologie, Google Translate et Babelfish, c'est blanc bonnet et bonnet blanc. Cordialement,
J-M

Anonyme a dit…

Je comprend votre point de vue, mais je persiste à penser que l'approche de Google n'est pas révolutionnaire, en tout cas dsa technologie. Ainsi, si je me base sur une référence connue dans le domaine du traitement automatique du langage, Foundations of Statistical Natural Language Processing de Christopher Manning, je peux déduire que le renouveau en matière de traduction automatique date de la moitié des années 90. Je suis à peu prêt sûr que Google exploite les techniques décrites dans cet ouvrage, donc, il n'y a pas de révolution au niveau des techniques et de la technologie. Tout au plus des avancées, et ce dans le meilleur des cas.

Par contre, il y a une révolution en ce qui concerne la diffusion de ce service, il touchera plus de monde que ne le fera jamais aucun projet universitaire classique.

En ce qui concerne la technologie consacrée à la voix, je sais que mon PowerBook intègre des fonctionnalités intéressantes, mais je n'ai pas encore eu le temps d'y consacrer plus de temps. Je sais qu'il peut m'aider à réaliser des ebooks, mais je ne sais pas s'il peut m'aider à faire des transcriptions d'un podcast par exemple. Piste à creuser... Mais bon, là encore, Google n'innove pas au niveau de la technologie, mais peut-être au niveau de la diffusion.

Quand je pense à Google, je pense à leur souhait de mettre à disposition de tous l'information du monde entier, et je pense quasi immédiatement aux problèmes linguistiques, donc, à la traduction. Mais bon, je suis probablement un mauvais candidat pour ce test puisque tout cela relève de mon domaine (sciences de l'information).

Mais bon, pour moi, Google mérite plus le qualificatif de dynamique que de révolutionnaire. Il n'a encore jamais révolutionné ma façon de vivre le Web, et les révolutions présentées par les médias me rappelaient à chaque fois une découverte précédente. Mais que cela soit bien clair, je ne suis pas un détracteur de Google, j'aime bien la société, son esprit et ses créateurs.

Bien à vous

Manu

PS : et oui, j'avais bien noté que Google Translate et Belbelfish était le même moteur sous deux formes différentes, Babelfish offrant plus de langues à l'utilisateur.