mercredi 1 septembre 2021

Histoire de la traduction automatique à base de règles

20 anni prima della pubblicazione di Translation, il memorandum di Warren Weaver (nel 1949), e 25 anni prima dell'esperimento Georgetown-IBM di traduzione automatica a base di regole (nel 1954)!

Cette étude fut présentée au mois de décembre 1929...
20 ans avant la publication de Translation, le mémorandum de Warren Weaver (en 1949), et 25 ans avant l'expérience de Georgetown-IBM sur la première traduction automatique à base de règles (en 1954) !

This study was presented in December 1929...
20 years before the publication of Translation, the Warren Weaver memorandum (1949), and 25 years before the Georgetown-IBM rule-based machine translation experiment (1954)!

*

Il y a toujours eu, à toutes les époques, des femmes et des hommes en avance sur leur temps. Tellement en avance que leurs contemporain(e)s les ont totalement ignoré(e)s, et parfois même leur postérité. C'est le cas de Federico Pucci, bien que je ne désespère pas que son rôle de précurseur de la traduction automatique soit finalement reconnu d'ici au centenaire de sa publication phare (1931) : Il traduttore meccanico ed il metodo per corrispondersi fra Europei conoscendo ciascuno solo la propria lingua : Parte I (Traduzioni dalla lingua estera).


Soit « Le traducteur mécanique et la méthode pour correspondre entre européens, chacun en connaissant uniquement sa propre langue », 1e partie (Traductions à partir de la langue étrangère). Publié durant la neuvième année de l'ère fasciste (!), c'est l'ouvrage le plus complet, 68 pages de descriptions, dans lequel il nous dit que son étude fut présentée pour la première fois en décembre 1929, (soit vingt ans avant la publication de Translation le 15 juillet 1949, le mémorandum de Warren Weaver universellement considéré comme le tout-début de la réflexion sur la traduction automatique), et développée ensuite dans une dizaine de livres dédiés (ceux dont j’ai connaissance, ce qui n’exclut pas qu’il ait pu en écrire d’autres, encore à trouver…), rédigés pendant près de 30 ans.

Dans son ouvrage intitulé Babel 2.0 - Où va la traduction automatique ? (Odile Jacob, 2019), Thierry Poibeau nous dit ceci: Pour les aspects historiques, on consultera le site Web extrêmement complet de John Hutchins (http://www.hutchinsweb.me.uk/). Et d'ajouter : Les aspects historiques [de la traduction automatique] sont très bien documentés grâce au travail extrêmement minutieux et complet de John Hutchins. Il nous cite d'ailleurs trois livres de référence :

  • John Hutchins, Machine Translation : Past, Present, Future, Ellis Horwood (Ellis Horwood Series in Computers and their Applications), 1986.
  • John Hutchins et Harold L. Somers, An Introduction to Machine Translation, Academic Press, 1992.
  • John Hutchins, Early Years in Machine Translation : Memoirs and Biographies of Pioneers, John Benjamins, 2000.

Donc, concernant John Hutchins, décédé en janvier de cette année, son site n'est plus en ligne (si ce n'est cette version d'archive), ce qui est fort dommage car c'était une véritable mine d'informations sur la TA (Si les livres et documents de John Hutchins ne sont plus disponibles aujourd'hui, j'en tiens une copie à disposition de celles et ceux qui souhaiteraient approfondir cette histoire). C'est aussi grâce à lui que j'ai découvert l'existence de Federico Pucci, comme j'ai déjà eu l'occasion de l'expliquer :
S’il est un chercheur qui fait autorité dans l’histoire de la traduction automatique, c’est bien John Hutchins, dont l’article « Machine Translation: History », publié en 2006 dans l’Encyclopedia of Language & Linguistics, Second Edition, Éd. Elsevier, commence par le chapitre « Precursors and Pioneers, 1933–1954 » ; en voici le début (1) :
Although we might trace the origins of ideas related to machine translation (MT) to 17th-century speculations about universal languages and mechanical dictionaries, it was not until the 20th century that the first practical suggestions could be made, in 1933 with two patents issued in France and Russia to Georges Artsrouni and Petr Trojanskij, respectively. Artsrouni’s patent was for a general-purpose machine that could also function as a mechanical multilingual dictionary. Trojanskij’s patent, also basically for a mechanical dictionary, went further with detailed proposals for coding and interpreting grammatical functions using ‘universal’ (Esperanto-based) symbols in a multilingual translation device. 
Il y est donc clairement établi que les précurseurs/pionniers de la TA sont Georges Artsrouni et Petr Trojanskij, et l’année de référence est 1933. Une assertion unanimement reconnue et, à ma connaissance, jamais remise en question par qui que ce soit.

Pourtant, dans des documents antérieurs, rédigés par ce même John Hutchins, celui-ci mentionne par deux fois un certain Federico Pucci, de Salerne. La première fois en 1997, dans un document intitulé « First Steps In Mechanical Translation » (2) :
In August 1949, the New York Times reported from Salerno that an Italian named Federico Pucci, had invented a machine to translate, saying that it would be exhibited at a Paris Fair; but no more was to be heard of it. 
Puis, dans une mise à jour datée de 2005 (3):
On 26 August 1949, the New York Times reported (page 9) from Salerno:  Federico Pucci announced today that he had invented a machine that could translate copy from any language into any other language. He said that the machine was electrically operated, but refused to disclose details. He said that he would enter it in the Paris International Fair of Inventions next month.   
It is uncertain whether Pucci had any knowledge of Huskey’s proposals, and it seems most unlikely he knew about Weaver's memorandum or the British experiments. In any event, there is no trace of any demonstration at the Paris fair; and nothing more is known about Pucci 
Soit une dizaine de lignes en tout, mais qui donnent le départ d’une extraordinaire découverte, doublée d’une formidable aventure humaine : celles de Federico Puccidont nul n’avait jamais connu rien d’autre que ces quelques mots, jusqu’à ce qu’une irréfrénable curiosité ne me pousse à en savoir davantage…
En fait, dans le premier document où il mentionne Pucci, John Hutchins cite également le passage d'une lettre de Descartes au père Marin Mersenne, datée du 20 novembre 1629, qui préfigure selon lui la manière dont pourrait fonctionner un dictionnaire « mécanique » interlangue (je modernise l'orthographe) :
Toute l’utilité donc que je voie qui peut réussir de cette invention, c’est pour l’écriture : à savoir, qu’il fit imprimer un gros Dictionnaire en toutes les langues auxquelles il voudrait être entendu, et mit des caractères communs pour chaque mot primitif, qui répondissent au sens, et non pas aux syllabes, comme un même caractère pour aymer, amare, et ϕιλειν ; et ceux qui auraient ce Dictionnaire, et sauraient sa Grammaire, pourraient en cherchant tous ces caractères l’un après l’autre interpréter en leur langue ce qui serait écrit...

En somme, les bases de la méthode inventée par Pucci trois siècles plus tard !

La « préhistoire » de la T.A. est donc essentiellement marquée par deux noms : René Descartes et Gottfried Wilhelm Leibniz, qui en jettent certaines bases conceptuelles.

Selon John Hutchins et Harold L. Somers, Descartes et Leibniz envisageaient à cette époque de créer des dictionnaires mécaniques en utilisant des codes numériques universels (« Both Descartes and Leibniz speculated on the creation of dictionaries based on universal numerical codes », in An introduction to machine translation).

Descartes nous en dit plus sur l’invention de la langue universelle dans sa correspondance :

Pour être vraiment telle, une langue doit naître de la « vraie » philosophie et donc procéder d’une réforme qui transpose dans les pensées le même ordre simple et naturel qui existe entre les nombres. Les pensées deviendraient alors claires et simples et il serait « presque impossible » de se tromper. Le premier pas à accomplir, précise Descartes, n’est pas d’inventer les mots primitifs et les caractères de la langue universelle, ni de garantir des temps rapides d’apprentissage, mais d’établir « un ordre entre toutes les pensées qui peuvent entrer en l’esprit humain, de même qu’il y en a un naturellement établi entre les nombres ». On pourrait alors inventer des « mots » et les ordonner comme on ordonne les langages inventés pour représenter les nombres et comme on apprend « en un jour à nommer tous les nombres jusqu’à l’infini, et à les écrire en une langue inconnue, qui sont toutefois une infinité de mots différents », et « faire le même de tous les autres mots nécessaires pour exprimer toutes les autres choses qui tombent en l’esprit des hommes ». Ainsi naîtrait une vraie langue universelle, puisque telle est la langue capable de représenter les pensées ordonnées dans l’esprit de l’homme, les idées simples. Une telle langue s’affirmerait « bientôt parmi le monde » et beaucoup seraient disposés à employer « cinq ou six jours de temps pour se pouvoir faire entendre par tous les hommes ».
La langue universelle ne peut donc naître qu’après avoir ordonné, distingué et énuméré les pensées des hommes de façon à les rendre claires et simples. C’est là « le plus grand secret qu’on puisse avoir pour acquérir la bonne science ». Reposant sur la connaissance des « idées simples », une telle langue deviendrait facile à apprendre, à prononcer et à écrire : « Et si quelqu’un avait bien expliqué quelles sont les idées simples qui sont en l’imagination des hommes, desquelles se compose tout ce qu’ils pensent, et que cela fût reçu par tout le monde, j’oserais espérer ensuite une langue universelle fort aisée à apprendre, à prononcer et à écrire, et ce qui est le principal, qui aiderait au jugement lui représentant si distinctement toutes choses, qu’il lui serait presque impossible de se tromper ».
Une langue universelle est donc une langue des pensées ordonnées, mais aussi des pensées claires et simples. Les mots dont les hommes disposent ne possèdent, au contraire, que des significations confuses, ce qui explique pourquoi on n’entend presque rien parfaitement.
Source : Lettre au père Marin Mersenne du 20 novembre 1629, B 24, p. 92-97. « La lettre a été étudiée, dans la littérature critique cartésienne, surtout par rapport au projet de langue artificielle, en y voyant même parfois un antécédent de la caractéristique universelle de Leibniz… »
in DESCARTES : TRADUCTION, VÉRITÉ ET LANGUE UNIVERSELLE
Giulia Belgioioso (Université de Lecce)

*

J'ai contacté John Hutchins par deux fois, en avril 2018 et en mars 2019, pour lui exposer la suite de “and nothing more is known about Pucci...”, sans aucune réponse de sa part. J'espère toutefois qu'il aura lu mes articles dont je lui fournissais les liens.

Car, de fait, la découverte de Federico Pucci remet totalement en question l'histoire de la traduction automatique, et notamment celle de la première méthode (utilisée pendant un demi-siècle de façon pratiquement exclusive) à base de règles : sigle RBMT (pour Rule-Based Machine Translation), dont la "première" démonstration de l’histoire est connue dans ses moindres détails : date, lieu, équipe, langues, déroulement, etc., comme je l'ai expliqué ici :

En fait, une anecdote plus qu’une véritable démonstration scientifique : nous sommes le 7 janvier 1954, à New York, au siège d’IBM, l’équipe est une collaboration entre la Georgetown University (M. Paul Garvin pour la partie linguistique) et IBM (M. Peter Sheridan pour la partie programmation), la paire de langues est le russe et l’anglais, un lexique de 250 mots choisis avec soin, quelques dizaines de phrases, 6 règles !

Le lendemain, IBM annonce dans un communiqué de presse :
And the giant computer, within a few seconds, turned the sentences into easily readable English. 
Ce même communiqué mentionnait cette phrase du professeur Leon Dostert, de l'Université de Georgetown, selon lequel, en l’espace de quelques années la traduction automatique aurait pu devenir réalité :
Doctor Dostert predicted that “five, perhaps three years hence, interlingual meaning conversion by electronic process in important functional areas of several languages may well be an accomplished fact.” 
Ainsi Federico Pucci avait anticipé d'un bon quart de siècle l’expérience de Georgetown-IBM, puisqu'il présenta pour la première fois sa méthode à Salerne, inventée de A à Z, en décembre 1929 !

*

Depuis quatre ans (premier billet : mars 2017) que j'ai dévoilé - et documenté en trois langues - l'expérience de Pucci dans ses moindres détails, jamais aucun chercheur / spécialiste / universitaire impliqué dans la traduction automatique n'a relayé cette antériorité absolue de Federico Pucci et sa qualité de précurseur ! Jamais personne (à part moi) n'a daigné reprendre et interroger l'histoire de la TA pour y intégrer Pucci à la première place, alors qu'il a conçu il y a 90 ans la portée de la TA telle qu'on la connaît à présent dans la vie de tous les jours : accessible et abordable à toutes et à tous (il n'aurait quand même pas pu arriver à en imaginer la gratuité !), contrairement aux autres précurseurs qui n'ont fabriqué que d'énormes machines très compliquées depuis longtemps passées aux oubliettes de l'histoire.

À l'opposé, la modernité de son livre a consigné noir sur blanc à l'histoire les deux premiers exemples de textes traduits "mécaniquement", l'un de l'italien au français, et l'autre du français à l'italien !

Or, là encore, jamais aucun chercheur / spécialiste / universitaire impliqué dans la traduction automatique n'a daigné étudié la méthode inventée par Pucci : inconnu de son vivant, et encore totalement snobé près d'un cinquantenaire après sa mort. 

Une cruelle injustice dont j'espère qu'elle sera réparée avant le centenaire de la publication de « Le traducteur mécanique et la méthode pour correspondre entre européens, chacun en connaissant uniquement sa propre langue ». Ce sera dans dix ans, en 2031, ça nous laisse encore de la marge...



P.S. Juste pour la précision, voici la décennie des années 30 de mon histoire actualisée de la traduction automatique (2017) :

2. Années 30 du XXe siècle : les précurseurs 

Passons maintenant du début des années 30 au Web, c’est-à-dire du premier « traducteur mécanique » de Federico Pucci à la moderne « traduction automatique neuronale » (voir ici une comparaison...) :

1929 (décembre) : Federico Pucci présente pour la première fois à Salerne son étude sur le "traducteur mécanique".

1930 [mise à jour] : présentation à l'Exposition Nationale de Bolzano, section littéraire, du dispositif "traducteur mécanique" de Federico Pucci, primé avec une médaille d'argent.

1931 : Federico Pucci publie à Salerne la partie I de ce qui est vraisemblablement le premier ouvrage jamais publié sur un dispositif de "traduction mécanique" : « Le traducteur mécanique et la méthode pour correspondre entre européens, chacun en connaissant uniquement sa propre langue ». 


1932 : construction probable d’une première machine à traduire de Georges Artsrouni, détruite par la suite, aucun document la concernant n'ayant été conservé, si ce n’est une photographie ne permettant pas d'en donner une description. (Source)

1932 : Warren Weaver devient directeur de la Fondation Rockfeller

1933 : dépôt du brevet et présentation aux autorités soviétiques de la machine de Petr Petrovič Smirnov-Trojanskij, sans doute restée à l'état de plans et de description. (Source)


1933-1935 : construction du « cerveau mécanique » de Georges Artsrouni :


1935 : présentation du « traducteur mécanique » de Federico Pucci au Concours d'inventions ouvert dans le cadre de la Foire de Paris (ou plutôt de sa "méthode à traduire les langues sans les connaître", primée par une médaille d'argent)

1937 : Georges Artsrouni présente quelques machines à l'Exposition Nationale de Paris, dont le principe fut couronné d'un diplôme de Grand Prix pour la mécanographie, selon l'inventeur lui-même.

1939-1945 : Deuxième Guerre mondiale...

Aucun commentaire: