Adscriptor: 04/18

mardi 17 avril 2018

Nos traces sur Internet = notre empreinte digitale 2.0

Depuis l'avènement du Web, l'expression "empreinte digitale" revêt un nouveau sens, lié aux traces que nous laissons sur Internet, à notre insu de notre plein gré.

Or dans un parallélisme étonnant, l'empreinte que presque tous nous laissons désormais sur le Web, permet de nous identifier de façon aussi quasi-unique que le dactylogramme laissé par notre index après avoir été au contact d'un tampon encreur.

Essayons de voir comment.

* * *

Dans l'un de mes billets préférés (sur le millier que j'ai globalement commis depuis 2005...), écrit il y a 10 ans et intitulé Bloc contre bloc, l'internaute au centre..., puis repris en 2016 dans « Des événements qui déclenchent la collecte de données "privées" aux "moments de vie" des internautes... », je décrivais ainsi les « Data transmission events » :

... je ne parlerai que d'événements pour abréger, mais à chaque fois il faudra bien comprendre qu'il s'agit d'événements déclenchant la collecte de données "privées" sur les usages de l'internaute. Citons, à titre d'exemple, les données collectées :

lors des recherches de l'internaute ;

lors de ses achats ;

lorsqu'il clique sur une pub ;

lorsqu'il s'enregistre sur un service ;

grâce aux cookies, etc.

Tout cela permettant à qui les possède en bout de chaîne d'obtenir des informations précises sur nos habitudes, nos intérêts, et ainsi de suite. Le graal des publicitaires et des marketers de tout poil, en quelque sorte !

On pourra toujours s'interroger pour savoir si ces données sont collectées à notre insu ou non, bien que je me demande franchement quel internaute naviguant régulièrement sur Internet ne serait pas encore au courant !?

Quant au nombre de ces événements, obtenu en divisant les milliards d’événements de données collectées par les différents acteurs sur leurs sites propriétaires et sur les réseaux étendus de régie publicitaire par le total de leurs visiteurs uniques (mesures menées aux États-Unis en décembre 2007 sur le trafic imputable aux quinze plus gros acteurs américains de l'Internet, par le New York Times et comScore), il était déjà assez impressionnant pour l'époque :

sur un seul mois, Yahoo! engrangeait 2 520 données uniques par visiteur et se classait en tête loin devant ses concurrents ;
Google, qui venait juste d'intégrer Doubleclick, se classait en deuxième position avec 1645 données ;
suivaient ensuite Microsoft, Time Warner, AOL, Fox Interactive Media et MySpace (!).

* * *

Et devant Facebook ! Donc c'était il y a 10 ans, Facebook ne comptait "que" 75 millions d'utilisateurs dans le monde (quand bien même ses statistiques de progression étaient déjà impressionnantes, avec +300% de croissance sur un an...), vs. quelque deux milliards d'utilisateurs actifs mensuels aujourd'hui (!) (barre symbolique franchie au deuxième trimestre 2017), etc. Et beaucoup s'interrogeaient, à l'époque, sur quel aurait pu être le modèle économique durable de Facebook pour en assurer la pérennité. D'aucuns se risquaient même à en prédire la déconfiture totale, et rapide (Frédéric Cavazza, par exemple).

Autant dire que, à l'aune d'Internet, nous en étions pratiquement encore à la préhistoire ! Et nous avons vu depuis (histoire très récente) ce que la possession et l'analyse de toutes ces données personnelles peut provoquer lorsqu'elles sont aux mains de qui sait s'en servir, avec toutes les implications qui peuvent s'en suivre, d'ailleurs plus souvent en mal qu'en bien...

Dans un formidable article intitulé "comment une pizza commandée de nuit coûte moins cher en dollars qu'en données" (How Pizza Night Can Cost More in Data Than Dollars), les journalistes du Wall Street Journal démontrent qu'une soirée passée chez soi entre amis à commander sur Internet a des implications inattendues en termes de données collectées, dans un article d'un niveau de détail hallucinant, à lire absolument !

Et qui illustre fort bien quelles peuvent être les conséquences, à notre insu, de gestes que nous commettons souvent librement, de notre plein gré.

Impossible ici de reprendre tout l'article (allez le lire, j'insiste), je ne reprendrai que la partie du selfie posté sur Facebook, où s'ajoutent aux données communiquées de notre plein gré (photo téléchargée, texte d'accompagnement et reconnaissance faciale, lorsque vous taguez votre nom ou celui/ceux de votre/vos ami.e.s sur la photo), celles collectées à notre insu par la plateforme :

Soit une vingtaine de données en tout dans ce seul cas... Maintenant, imaginons combien de fois par jour nous accomplissons de notre plein gré de tels gestes, innocents au demeurant, multipliés par le nombre de plateformes, qui collectent à notre insu d'énormes quantités de métadonnées (outre celles que nous communiquons de nous-mêmes), associées à notre implication dans la grande conversation mondiale jamais interrompue sur Internet...

Et imaginons ensuite que toutes ces données soient agrégées, centralisées, recoupées, analysées et, surtout, corrélées à quelqu'un et à son réseau, etc., alors on comprend vite que c'en est définitivement terminé du "secret" de la vie privée. Déjà que ni l'anonymisation ni la pseudonymisation des données ne sont des garanties suffisantes pour empêcher l'identification d'un individu quelconque, il suffit de se rappeler l'affaire AOL :

En 2006, une base de données d'America On Line contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650 000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique. À la suite de quoi, l’identité et la localisation de certains utilisateurs ont été rendues publiques. Les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé.

* * *

Je ne souhaite pas entrer ici dans la discussion fort intéressante entre Antonio Casilli sur la qualification des traces que nous laissons partout à notre insu de notre plein gré (ou de notre plein gré à notre insu, à vous de choisir l'ordre) en "digital labor", et sur les fortes tensions conceptuelles qui en découlent, mais je me limiterais à souligner ce passage de Jean-Michel Salaün qui illustre fort bien ma pensée sur la "plateformisation" (c'est moi qui mets en évidence) :

Les trois plateformes de l’industrie de l’information, Apple, Google et Facebook ont été les premières réussites spectaculaires, définissant le modèle et lui trouvant un débouché commercial. (...) Chacune se rémunère différemment. Apple vend très cher les terminaux qui donnent accès aux API proposées sur sa plateforme. Google vend des mots-clés pour accrocher des annonces commerciales aux contenus que recherchent les internautes. Facebook vend des espaces publicitaires sur les pages des internautes dont il a pu caractériser les comportements grâce à leurs interrelations...

Second point très important : les algorithmes fonctionnent par un calcul sur les très grands nombres. Il a même été mis au point pour permettre ces calculs une nouvelle forme de gestion des données : les bases de données non-relationnelles ou NoSQL. Ainsi nos données personnelles recueillies ne sont qu’une petite goutte d’eau dans un océan de données. Si nous pouvions parler de responsabilité individuelle sur l’utilisation de nos données, ce qui est déjà très contestable, celle-ci serait de toutes façons tellement diluée qu’elle serait négligeable, sauf évidemment pour ceux qui retournent la puissance de calcul des plateformes à leur profit...

Les plateformes nous observent afin de fluidifier les relations entre nous et ceux qui nous proposent des services. Mais cette observation génère un nombre considérables de données sur nos comportements. Cette accumulation a fait émerger une inquiétude quant à leur capacité à changer de registre, c’est à dire à dépasser leur fonction d’intermédiaire pour jouer un rôle politique. L’inquiétude est accentuée par les compétences en design de l’expérience utilisateur acquises par les plateformes parfois assimilées à de la manipulation. C’est sans doute la première limite sérieuse à un développement jusqu’ici spectaculaire par son ampleur et sa rapidité.

Donc voilà, work in progress... Il y a dix ans, les plateformes ne faisaient pas peur, ou pour le moins pas autant qu'aujourd'hui. Ce n'est plus le cas, donc, et souvent à juste titre. Ce qui se passe en Chine, notamment - mais pas que - avec le déploiement massif de la reconnaissance faciale, est en train de transposer la dimension IRL dans la plateforme, où l'être humain n'est plus désormais simplement un "sujet", mais aussi et surtout un "objet" : classable, analysable, empilable à l'infini...

Pour l'heure, je n'ai malheureusement aucune conclusion optimiste !

mardi 10 avril 2018

Exclusive: Federico Pucci. The overlooked pioneer of machine translation

Federico Pucci

The overlooked pioneer of machine translation

(Version française) (Slideshare) (Versione italiana)

(Update / French post)

This is the title of the book that Federico Pucci’s granddaughter and I have decided to write. Below is its preface:

If you do a Google search for traduction automatique, more than 2.5 million results come up. A similar number are retrieved for traduzione automatica, while a search for machine translation, gets 11.5 million results. And so on for all other languages. Figures that are bound to grow in years to come.

There has never been more interest in machine translation (MT) than there is now. With neural machine translation, making use of artificial intelligence, coming into the picture, this field is heading towards another revolution. The second big (r)evolution in less than 20 years, after the first wave brought in by Google in the « Noughties ».

One of the biggest authorities in the history of machine translation is John Hutchins, whose article « Machine Translation: History », published in 2006 in the Encyclopedia of Language & Linguistics, Second Edition (Elsevier), begins with the chapter « Precursors and Pioneers, 1933–1954. It starts like this⁽¹⁾:

Although we might trace the origins of ideas related to machine translation (MT) to 17th-century speculations about universal languages and mechanical dictionaries, it was not until the 20th century that the first practical suggestions could be made, in 1933 with two patents issued in France and Russia to Georges Artsrouni and Petr Trojanskij, respectively. Artsrouni’s patent was for a general-purpose machine that could also function as a mechanical multilingual dictionary. Trojanskij’s patent, also basically for a mechanical dictionary, went further with detailed proposals for coding and interpreting grammatical functions using ‘universal’ (Esperanto-based) symbols in a multilingual translation device.

This clearly posits that the precursors or pioneers of MT were Georges Artsrouni and Petr Trojanskij, with the year 1933 firmly fixed. This view is unanimously shared, and as far as I am aware has never been challenged by anyone.

Earlier documents, however, also penned by John Hutchins, mention on two occasions a certain Federico Pucci, from Salerno. The first time in 1997, in a document entitled « First Steps In Mechanical Translation » ⁽²⁾:

In August 1949, the New York Times reported from Salerno that an Italian named Federico Pucci, had invented a machine to translate, saying that it would be exhibited at a Paris Fair; but no more was to be heard of it.

Then in a 2005 update⁽³⁾:

On 26 August 1949, the New York Times reported (page 9) from Salerno: Federico Pucci announced today that he had invented a machine that could translate copy from any language into any other language. He said that the machine was electrically operated, but refused to disclose details. He said that he would enter it in the Paris International Fair of Inventions next month.

It is uncertain whether Pucci had any knowledge of Huskey’s proposals, and it seems most unlikely he knew about Weaver's memorandum or the British experiments. In any event, there is no trace of any demonstration at the Paris fair; and nothing more is known about Pucci.

Just a dozen or so lines in all, but the starting point that will lead to an amazing discovery, not to mention a great human adventure. The story of Federico Pucci, about whom nothing at all was known save for these few words. I had an irresistible urge to find out more…

He has the merit and the honour of having published the world’s first text on the “mechanical translator” written in modern times, back in 1931 (year IX of the fascist era!):

As far as we know, he wrote a total of 10 books in 30 years (French post) explaining the ideas behind his invention, totally unknown today.

Writing this preface, a little over a year after having written my first blog post on this wonderful story, entitled « Machine translation: SCOOP on the dynamo-mechanical translator! », I realise that the intense road already travelled is shorter than that still to be traversed, before Federico Pucci’s role as a pioneer in the history of machine translation is universally recognised, and before a University, or one of the world’s biggest MT players, decides to take up his studies and ideas and finally build a working prototype of his translating machine…

Salerno, Easter 2018

Bibliography

⁽¹⁾ Hutchins J (2006), Machine Translation: History. In: Keith Brown, (Editor-in-Chief) Encyclopedia of Language & Linguistics, Second Edition, volume 7, pp. 375-383. Oxford: Elsevier.
http://www.hutchinsweb.me.uk/EncLangLing-2006.pdf

⁽²⁾ FIRST STEPS IN MECHANICAL TRANSLATION

John Hutchins

(University of East Anglia, Norwich, UK)

https://pdfs.semanticscholar.org/8241/607f07ca47751bf89e5f173158999d07f8a6.pdf

⁽³⁾ [Corrected version (2005) of paper in: Machine Translation, vol.12 no.3, 1997, p.195-252]

From first conception to first demonstration: the nascent years of machine translation, 1947-1954

A chronology

John Hutchins

http://www.hutchinsweb.me.uk/MTJ-1997-corr.pdf

* * *

* * *

P.S. Federico Pucci, a clever and knowledgeable man according to his daughter, was born in Naples on 23 March 1896. He died in Salerno on 6 March 1973 just before reaching the age of 77.

He is the great grandson, through his father, of Francesco Benzo, Duke of Verdura, formerly intendant of Basilicata, then praetor and intendant of Palermo from 1849 to 1858, nobleman of the court of King Ferdinand II of the Two Sicilies, and also polyglot and interpreter for the King.

dimanche 1 avril 2018

Federico Pucci, précurseur oublié de la traduction automatique

Federico Pucci

Précurseur oublié de la traduction automatique

(English version) (Slideshare) (Versione italiana)

Tel est le titre du livre que la petite-fille de Federico Pucci et moi-même avons décidé d'écrire, et dont nous vous proposons ici la préface :

En cherchant le binôme traduction automatique, Google renvoie plus de 2,5 millions de résultats, pratiquement autant pour traduzione automatica, presque 11,5 millions pour machine translation (MT), et ainsi de suite dans toutes les langues. Des chiffres inéluctablement destinés à augmenter dans les années à venir.

Jamais il n’a été autant question de traduction automatique (TA) que ces jours-ci, et l’arrivée de la TA neuronale faisant levier sur l’intelligence artificielle promet de révolutionner encore le domaine. Soit la deuxième (r)évolution majeure en moins de 20 ans, après la première vague révolutionnaire, signée Google dans les années 2000.

S’il est un chercheur qui fait autorité dans l’histoire de la traduction automatique, c’est bien John Hutchins, dont l’article « Machine Translation: History », publié en 2006 dans l’Encyclopedia of Language & Linguistics, Second Edition, Éd. Elsevier, commence par le chapitre « Precursors and Pioneers, 1933–1954 » ; en voici le début ⁽¹⁾ :

Although we might trace the origins of ideas related to machine translation (MT) to 17th-century speculations about universal languages and mechanical dictionaries, it was not until the 20th century that the first practical suggestions could be made, in 1933 with two patents issued in France and Russia to Georges Artsrouni and Petr Trojanskij, respectively. Artsrouni’s patent was for a general-purpose machine that could also function as a mechanical multilingual dictionary. Trojanskij’s patent, also basically for a mechanical dictionary, went further with detailed proposals for coding and interpreting grammatical functions using ‘universal’ (Esperanto-based) symbols in a multilingual translation device.

Il y est donc clairement établi que les précurseurs/pionniers de la TA sont Georges Artsrouni et Petr Trojanskij, et l’année de référence est 1933. Une assertion unanimement reconnue et, à ma connaissance, jamais remise en question par qui que ce soit.

Pourtant, dans des documents antérieurs, rédigés par ce même John Hutchins, celui-ci mentionne par deux fois un certain Federico Pucci, de Salerne. La première fois en 1997, dans un document intitulé « First Steps In Mechanical Translation » ⁽²⁾ :

In August 1949, the New York Times reported from Salerno that an Italian named Federico Pucci, had invented a machine to translate, saying that it would be exhibited at a Paris Fair; but no more was to be heard of it.

Puis, dans une mise à jour datée de 2005 ⁽³⁾:

On 26 August 1949, the New York Times reported (page 9) from Salerno: Federico Pucci announced today that he had invented a machine that could translate copy from any language into any other language. He said that the machine was electrically operated, but refused to disclose details. He said that he would enter it in the Paris International Fair of Inventions next month.

It is uncertain whether Pucci had any knowledge of Huskey’s proposals, and it seems most unlikely he knew about Weaver's memorandum or the British experiments. In any event, there is no trace of any demonstration at the Paris fair; and nothing more is known about Pucci.

Soit une dizaine de lignes en tout, mais qui donnent le départ d’une extraordinaire découverte, doublée d’une formidable aventure humaine : celles de Federico Pucci, dont nul n’avait jamais connu rien d’autre que ces quelques mots, jusqu’à ce qu’une irréfrénable curiosité ne me pousse à en savoir davantage…

Or c'est quand même à lui que revient le mérite d'avoir publié le premier texte au monde sur le traducteur "mécanique" des temps modernes, dès 1931 (an IX de l'ère fasciste !) :

À notre connaissance, il écrira d'ailleurs 10 livres en 30 ans sur son idée d'invention, totalement inconnus aujourd'hui.

En rédigeant cette préface, un peu plus d’un an après avoir écrit mon premier billet de blog sur cette incroyable histoire, intitulé « Traduction automatique : SCOOP sur le traducteur dynamo-mécanique ! », je me rends pourtant compte que le chemin parcouru, déjà riche et intense, est inférieur à celui qui reste à parcourir, avant que le rôle de précurseur de Federico Pucci dans l’histoire de la traduction automatique ne soit universellement reconnu, et qu’une Université, ou encore l’un des acteurs majeurs de la TA dans le monde, ne s’empare de ses travaux et intuitions pour réaliser finalement un prototype fonctionnel de sa machine à traduire…

Salerne, Pâques 2018

Bibliographie

⁽¹⁾ Hutchins J (2006), Machine Translation: History. In: Keith Brown, (Editor-in-Chief) Encyclopedia of Language & Linguistics, Second Edition, volume 7, pp. 375-383. Oxford: Elsevier.
http://www.hutchinsweb.me.uk/EncLangLing-2006.pdf

⁽²⁾ FIRST STEPS IN MECHANICAL TRANSLATION

John Hutchins

(University of East Anglia, Norwich, UK)

https://pdfs.semanticscholar.org/8241/607f07ca47751bf89e5f173158999d07f8a6.pdf

⁽³⁾ [Corrected version (2005) of paper in: Machine Translation, vol.12 no.3, 1997, p.195-252]

From first conception to first demonstration: the nascent years of machine translation, 1947-1954

A chronology

John Hutchins

http://www.hutchinsweb.me.uk/MTJ-1997-corr.pdf

* * *

* * *

P.S. Federico Pucci, homme d'ingéniosité et de culture, dans les mots de sa fille, est né à Naples le 23 mars 1896. Il est décédé à Salerne le 6 mars 1973, à la veille de ses 77 ans.

Il est l'arrière-petit-fils, par son père, de Francesco Benzo Duca della Verdura, d'abord intendant de la Basilicate, puis préteur et intendant de Palerme entre 1849 et 1858, gentilhomme de la chambre du roi Ferdinand II des Deux-Siciles, et accessoirement polyglotte et interprète du roi.

Pages

mardi 17 avril 2018

Nos traces sur Internet = notre empreinte digitale 2.0

mardi 10 avril 2018

Exclusive: Federico Pucci. The overlooked pioneer of machine translation

dimanche 1 avril 2018

Federico Pucci, précurseur oublié de la traduction automatique