lundi 8 septembre 2025

Federico Pucci vs Georges Artsrouni et Piotr Smirnov-Trojanskij

page IA

IA inside

*

En 1949, le CNR - Conseil National des Recherches, équivalent italien de notre CNRS - avait écarté Federico Pucci sous prétexte qu’il n’avait jamais construit de « machine à traduire ». Aujourd’hui, 75 ans plus tard, l’histoire prend un tournant ironique : les machines d’Artsrouni et de Trojanskij dorment sur les étagères des musées, tandis que la méthode purement théorique de Pucci retrouve une vie nouvelle grâce à l’intelligence artificielle.

Ce qui fut considéré comme une faiblesse à l'époque – l'absence de matérialité, aucun prototype – devient aujourd'hui la force de Pucci, sa revanche posthume : nous avoir légué les deux premiers textes traduits "mécaniquement" au monde, et avoir conçu un système idéographique et interlingua si abstrait et visionnaire qu’il a pu traverser le temps et renaître au XXIe siècle via les « machines immatérielles » de l’IA.

Le traducteur sans machine d'hier est finalement le seul qui fonctionne encore, comme je l'explique ici dans le détail. Les versions en français et en italien de mon étude suivront bientôt...

*

J'y décris l'opérationnalisation par l'IA d'une méthode conçue il y a près d'un siècle, d'abord présentée en public au mois de décembre 1929, puis publiée à Salerne (Italie) en 1931 et primée par une médaille d'argent à l’exposition-concours internationale des inventions de la foire de Paris, en mai 1935 :


alors intitulée : « une méthode pour traduire les langues sans les connaître », preuve qu'une approche « pré-numérique » peut renaître aujourd’hui.

La question coule de source : comment opérationnaliser via l'IA moderne ces trois systèmes historiques de traduction mécanique, analyser la possibilité de les faire revivre en 2025 et comparer leurs similitudes/différences ?

Le contexte historique est le suivant :
  • Pucci : système idéographique et symbolique (1931), testé expérimentalement via les LLM en 2025.
  • Artsrouni : prototype de « cerveau mécanique » (1932-1933), basé sur un système de recherche lexicale.
  • Trojanskij : méthode interlingua en trois étapes (1933-1935), analyse logique → interlingua → recomposition.
Personnellement, leur contemporanéité est l'élément qui me frappe le plus. C'est la toute première réflexion de mon étude (j'adapte) :
Le phénomène des inventions simultanées, par lequel plusieurs individus — souvent isolés les uns des autres et situés dans différents pays — aboutissent indépendamment à une même découverte, montre que les percées scientifiques et technologiques ne résultent pas uniquement de collaborations directes, mais aussi de contextes intellectuels, sociaux et techniques communs, propices à l’émergence parallèle d’idées similaires. L’un des exemples les plus emblématiques est le déchiffrement des hiéroglyphes égyptiens au XIXᵉ siècle, où les travaux parallèles de Jean-François Champollion en France et de Thomas Young au Royaume-Uni, rendus possibles par l’étude de la Pierre de Rosette et par une connaissance croissante du copte, illustrent la convergence de recherches distinctes au sein d’un même environnement intellectuel. Ce modèle dépasse le seul champ des écritures anciennes : le développement de la traduction automatique constitue lui aussi un cas paradigmatique d’invention simultanée, puisque, bien avant l’ère informatique, des chercheurs de différents pays concevaient déjà l’idée de machines capables de franchir les barrières linguistiques.
 *

Cadre méthodologique d'opérationnalisation (établissement d'un lien entre la théorie et la pratique) :


Question faisabilité, si Pucci a déjà été validé avec succès (preuve de la robustesse de la méthode), Artsrouni devrait être plus facile à émuler comme système de recherche (mais avec une valeur limitée sur le plan linguistique) et Trojanskij être plus complexe, mais hautement intéressant au plan scientifique, en montrant la valeur symbolique (Pucci, Trojanskij) vs mécanique (Artsrouni), et en soulignant l’apport historiographique de l’IA comme outil de revalorisation.

Il convient tout d'abord de mettre Pucci à part, pour comparer juste Artsrouni et Trojanskij.

Vue d’ensemble de l'idée de machine d’Artsrouni

D'abord appelée « cerveau mécanique », il s'agit essentiellement d'un dictionnaire automatique multilingue basé sur des bandes perforées (carton souple) disposées en colonnes pour plusieurs langues. Ce dispositif permettait la recherche et l’impression de traductions mot à mot : chaque ligne contenait une entrée pouvant aller jusqu’à quatre langues, 40 000 lignes possibles, avec des temps de réponse ne dépassant pas quelques secondes.

Ce que l’IA peut offrir aujourd’hui 

En simulant le comportement (en émulant la fonction) de la machine grâce aux LLM (GPT, Claude, Grok, etc.), il est possible de reproduire son fonctionnement sans en recréer le mécanisme matériel :

  1. Encodage digital du lexique multilingue (similaire à la bande perforée).
  2. Interface utilisateur simulée : on entre un mot source, l’IA affiche les équivalents automatiquement. 
  3. Rapidité et flexibilité améliorées (pas de contraintes physiques, accès instantané). 

voir d'améliorer la machine d’origine :

  • Ajouter le contexte, la gestion des variantes linguistiques ou des expressions idiomatiques. 
  • Intégrer une morphologie minimale, par exemple pour gérer genre ou nombre (absent dans la simple table d’origine). 
  • Offrir une adaptabilité à des langues multiples, même si Artsrouni se limitait à quelques langues dans un même dispositif.

Limitations & différences essentielles

  • Pas de traduction syntaxique : la machine Artsrouni était purement lexicale, elle ne rendait pas la grammaire ni le sens global. 
  • Pas d’analyse linguistique : aucune décomposition syntaxique ou interprétation sémantique, ce que permettent aujourd’hui les modèles neuronaux. 
  • Il s’agit donc d’une simulation partielle : ce n’est pas une machine de traduction complète, mais un simulateur de dictionnaire multilingue automatisé.

Exemple de protocole expérimental

  1. Récupérer ou créer un lexique multilingue (simulateur de la bande perforée). 
  2. Construire une interface LLM qui prend un mot source et retourne les équivalents dans les langues cibles (via base de données ou via LLM avec instructions). 
  3. Évaluer la correspondance (exactitude lexicale, rapidité) par rapport à la machine historique.
  4. Éventuellement, enrichir avec des exemples contextuels ou constructions grammaticales pour améliorer l’utilité.

Conclusion 

Il ne s'agit pas de reconstruire la machine physique, mais de recréer son opération fonctionnelle via l’IA. Aujourd'hui, grâce aux technologies numériques, nous pouvons simuler et même dépasser ce que la machine d’Artsrouni apportait, tout en conservant son principe (dictionnaire mécanique multilingue) et en le modernisant. C'est en cela que tient la véritable valeur historique et technique de ce projet — un précurseur que l’on peut désormais faire revivre dans un environnement numérique. 

*

Vue d'ensemble de la méthode interlingua symbolique de Trojanskij

Sa méthode repose sur l’idée d’une interlingua symbolique, conçue comme une représentation logique intermédiaire entre deux langues naturelles. Inspiré par l’espéranto mais plus abstrait, ce dispositif visait à formaliser la structure grammaticale et sémantique des énoncés en une forme logique standardisée, indépendante des spécificités linguistiques nationales. 

Le processus de traduction se déroulait en trois étapes :

  1. Analyse logique du texte source par un opérateur monolingue, transformant le texte national-grammatical (A) en une forme logique universelle (A’). 
  2. Conversion mécanique de cette forme logique en une autre forme logique correspondant à la langue cible (B’), à l’aide d’un dictionnaire, d’un glossaire de synonymes et d’une interlingua symbolique.
  3. Restitution du texte final (B) en langue naturelle par un second opérateur monolingue, à partir de la forme logique intermédiaire (B’). 

Ainsi, la machine de Trojanskij ne se limitait pas à un dictionnaire mécanique comme celle d’Artsrouni, mais visait un véritable système de traduction universel, avec un rôle central accordé à la logique symbolique et à l’analyse grammaticale abstraite.

Ce que l’IA peut offrir aujourd’hui (voire améliorer le principe d’origine)

Les modèles de langage actuels (LLM) permettent :

  • d'opérationnaliser automatiquement la transformation (A → A’), grâce à leurs capacités d’analyse syntaxique et sémantique, sans exiger l’intervention humaine initialement prévue par Trojanskij.
  • de simuler l’interlingua de manière computationnelle : l’IA peut encoder le texte source dans une représentation vectorielle ou symbolique et la contraindre à respecter un schéma interlingua proche de celui décrit par Trojanskij.
  • d'automatiser la phase B’ → B : là où Trojanskij prévoyait l’intervention d’un second opérateur monolingue, l’IA peut directement générer un texte grammaticalement correct et idiomatique dans la langue cible.
  • d'améliorer le principe d’origine : contrairement aux moyens de son époque, l’IA peut gérer de vastes corpus multilingues, produire des représentations interlinguales plus riches (incluant synonymes, homonymes, idiomatismes), et même de généraliser le système à des familles linguistiques non prévues par Trojanskij.

Limitations & différences essentielles 

  • Absence de spécifications complètes : la méthode de Trojanskij est partiellement documentée (brevets, descriptions ultérieures), ce qui nécessite une reconstruction interprétative par l’IA. 
  • Nature de l’interlingua : Trojanskij envisageait une interlingua strictement logique et symbolique, inspirée de l’espéranto. Les LLM, eux, opèrent par représentations statistiques continues ; l’alignement parfait entre les deux paradigmes n’est donc pas garanti. 
  • Rôle des opérateurs humains : la vision de Trojanskij reposait sur deux personnes monolingues pour assurer la phase d’analyse et de restitution. L’IA moderne court-circuite ces étapes, ce qui simplifie mais aussi modifie la nature collaborative initiale du processus. 

Donc, malgré les avancées incontestables de l'IA, l'opérationnalisation de sa méthode s'avère plutôt complexe : reconstruire l’interlingua décrite par Trojanskij et la rendre exploitable par un LLM, d'où l'exigence d'encoder règles grammaticales, catégories logiques et transformations syntaxiques. La méthode symbolique originale est déterministe et explicable, mais les LLM neuronaux sont des boîtes noires, rendant les erreurs difficiles à tracer. De plus, l'analyse logique automatique n'est pas parfaite pour les nuances culturelles ou idiomatiques, nécessitant toujours une post-édition humaine.

Côté différences, si Trojanskij est purement symbolique et mécanique, axé sur une interlingua explicite (symboles espéranto-like), l'IA moderne est majoritairement neuronale (end-to-end sans pivot explicite), bien que des hybrides émergent. L'original était monolingue et humain-dépendant, or en automatisant tout, l'IA perd en universalité stricte (pas de "logique universelle" pure). 

Exemple de protocole expérimental

Pour tester cette opérationnalisation, un protocole expérimental simple, implémentable avec des outils comme Python (spaCy pour parsing, Hugging Face Transformers pour traduction), pourrait être exécutable sur des plateformes comme Google Colab, pour valider l'amélioration IA tout en mesurant les limitations (ex. : taux d'erreur sur idiomes ~15-20 %).

Préparation : créer un dictionnaire multilingue symbolique (ex. : base de données JSON avec formes de base et symboles pour français, russe, anglais) ; utiliser un corpus test (ex. : phrases de Trojanskij comme "Le parti périt s’il commence à cacher ses erreurs").

Étapes :

  1. Pré-édition IA : soumettre la phrase source à un modèle NLP (ex. : spaCy) pour extraire formes de base et assigner symboles (ex. : "parti-o" pour sujet nominatif). Désambiguïser via prompt LLM : "Analyse logique : parti (groupe politique) -o, périr -as...".
  2. Traduction pivot : mapper via embeddings (Sentence Transformers) aux équivalents cibles, transférant symboles (ex. : "parti-o" → "партия-o" en russe).
  3. Post-édition IA : utiliser un LLM pour générer le texte final : "Prompt : Combine formes et symboles pour russe cohérent."

Évaluation : comparer avec traduction humaine (BLEU score, évaluation humaine). Tester sur 100 phrases, mesurant précision (fidélité symbolique) et fluidité. Variantes : Ajouter bruit (ambiguïtés) pour évaluer robustesse.

Conclusion

L'opérationnalisation de la méthode de Trojanskij via l'IA en 2025 revitalise une vision pionnière, transformant une approche mécanique symbolique en un système hybride puissant, scalable et automatisé. Bien que l'IA dépasse l'original en gérant le contexte et la multilingualité, elle introduit des défis comme l'opacité et les hallucinations, soulignant la pertinence d'hybrides symbolique-neuronaux pour une TA plus fiable. Ce revival pourrait inspirer des applications dans certains domaines sensibles (scientifique, diplomatique), où la logique explicite prime, confirmant Trojanskij comme un précurseur sous-estimé de la TA moderne.

*

Je ne vais pas ici décrire l'opérationnalisation via l'IA de la méthode Pucci, détaillée dans mon étude sur arXiv, et dont j'actualiserai bientôt les versions française et italienne. 

Mais si recréer Artsrouni aujourd’hui se rapproche davantage d'un projet muséal en simulant un "simple" dictionnaire mécanique, recréer Trojanskij s'apparente à un projet scientifique bien plus ambitieux, de quasi-archéologie numérique.

En ce sens, Pucci est beaucoup plus proche de Trojanskij que d'Artsrouni. Comme j'ai eu l'occasion de le mentionner en reprenant une remarque de Hutchins (Troyanskii was undoubtedly more interested in the mechanics of his proposal than the linguistic details of the translation processes themselves), Trojanskij était sans aucun doute bien plus ingénieur que linguiste, et Pucci exactement le contraire. C'est probablement la raison pour laquelle il n'a jamais pu construire la "machine à traduire" qu'il avait pourtant prévue dans les moindres détails.

Mais laissons le dernier mot à Hutchins, qui conclut ainsi son papier - coécrit avec Evgenii Lovtskii - intitulé « Petr Petrovich Troyanskii (1894–1950): A forgotten pioneer of mechanical translation » : 

There is little doubt that, if they had been known to the earliest Russian researchers, Troyanskii’s ideas would have been among the first to be tested on the new electronic computers and that Troyanskii would today be ranked alongside Weaver as an acknowledged “father” of MT.

Donc, de la même manière qu’Hutchins a pu affirmer à propos de Petr Petrovič Trojanskij que, si ses travaux avaient été connus des premiers chercheurs russes, ils auraient sans doute compté parmi les premiers à être testés sur les ordinateurs naissants et auraient valu à leur auteur une reconnaissance équivalente à celle de Warren Weaver, il est légitime d'avancer une conclusion analogue pour Federico Pucci. Publiée dès 1931, sa méthode anticipait à la fois les architectures symboliques à base de règles et les principes interlingua de la traduction automatique, tout en proposant une formalisation systématique suffisamment robuste pour être opérationnalisée avec les moyens numériques ultérieurs.

Si ses travaux avaient circulé au moment opportun — en Italie comme à l’international — Pucci aurait très probablement été intégré au canon fondateur de la discipline et reconnu comme l’un des « pères » de la traduction automatique. La validation contemporaine de sa méthode par l’intelligence artificielle, près d’un siècle plus tard, confirme a posteriori la pertinence et la valeur structurante de sa contribution.