mardi 17 avril 2018

Nos traces sur Internet = notre empreinte digitale 2.0

Depuis l'avènement du Web, l'expression "empreinte digitale" revêt un nouveau sens, lié aux traces que nous laissons sur Internet, à notre insu de notre plein gré.


Or dans un parallélisme étonnant, l'empreinte que presque tous nous laissons désormais sur le Web, permet de nous identifier de façon aussi quasi-unique que le dactylogramme laissé par notre index après avoir été au contact d'un tampon encreur.

Essayons de voir comment.

* * *

Dans l'un de mes billets préférés (sur le millier que j'ai globalement commis depuis 2005...), écrit il y a 10 ans et intitulé Bloc contre bloc, l'internaute au centre..., puis repris en 2016 dans « Des événements qui déclenchent la collecte de données "privées" aux "moments de vie" des internautes... », je décrivais ainsi les « Data transmission events » :
... je ne parlerai que d'événements pour abréger, mais à chaque fois il faudra bien comprendre qu'il s'agit d'événements déclenchant la collecte de données "privées" sur les usages de l'internaute. Citons, à titre d'exemple, les données collectées :
  • lors des recherches de l'internaute ;
  • lors de ses achats ;
  • lorsqu'il clique sur une pub ;
  • lorsqu'il s'enregistre sur un service ;
  • grâce aux cookies, etc.
Tout cela permettant à qui les possède en bout de chaîne d'obtenir des informations précises sur nos habitudes, nos intérêts, et ainsi de suite. Le graal des publicitaires et des marketers de tout poil, en quelque sorte ! 
On pourra toujours s'interroger pour savoir si ces données sont collectées à notre insu ou non, bien que je me demande franchement quel internaute naviguant régulièrement sur Internet ne serait pas encore au courant !?
Quant au nombre de ces événements, obtenu en divisant les milliards d’événements de données collectées par les différents acteurs sur leurs sites propriétaires et sur les réseaux étendus de régie publicitaire par le total de leurs visiteurs uniques (mesures menées aux États-Unis en décembre 2007 sur le trafic imputable aux quinze plus gros acteurs américains de l'Internet, par le New York Times et comScore), il était déjà assez impressionnant pour l'époque :


  • sur un seul mois, Yahoo! engrangeait 2 520 données uniques par visiteur et se classait en tête loin devant ses concurrents ;
  • Google, qui venait juste d'intégrer Doubleclick, se classait en deuxième position avec 1645 données ;
  • suivaient ensuite Microsoft, Time Warner, AOL, Fox Interactive Media et MySpace (!).



* * *

Et devant Facebook ! Donc c'était il y a 10 ans, Facebook ne comptait "que" 75 millions d'utilisateurs dans le monde (quand bien même ses statistiques de progression étaient déjà impressionnantes, avec +300% de croissance sur un an...), vs. quelque deux milliards d'utilisateurs actifs mensuels aujourd'hui (!) (barre symbolique franchie au deuxième trimestre 2017), etc. Et beaucoup s'interrogeaient, à l'époque, sur quel aurait pu être le modèle économique durable de Facebook pour en assurer la pérennité. D'aucuns se risquaient même à en prédire la déconfiture totale, et rapide (Frédéric Cavazza, par exemple).

Autant dire que, à l'aune d'Internet, nous en étions pratiquement encore à la préhistoire ! Et nous avons vu depuis (histoire très récente) ce que la possession et l'analyse de toutes ces données personnelles peut provoquer lorsqu'elles sont aux mains de qui sait s'en servir, avec toutes les implications qui peuvent s'en suivre, d'ailleurs plus souvent en mal qu'en bien...

Dans un formidable article intitulé "comment une pizza commandée de nuit coûte moins cher en dollars qu'en données" (How Pizza Night Can Cost More in Data Than Dollars), les journalistes du Wall Street Journal démontrent qu'une soirée passée chez soi entre amis à commander sur Internet a des implications inattendues en termes de données collectées, dans un article d'un niveau de détail hallucinant, à lire absolument !

Et qui illustre fort bien quelles peuvent être les conséquences, à notre insu, de gestes que nous commettons souvent librement, de notre plein gré.

Impossible ici de reprendre tout l'article (allez le lire, j'insiste), je ne reprendrai que la partie du selfie posté sur Facebook, où s'ajoutent aux données communiquées de notre plein gré (photo téléchargée, texte d'accompagnement et reconnaissance faciale, lorsque vous taguez votre nom ou celui/ceux de votre/vos ami.e.s sur la photo), celles collectées à notre insu par la plateforme :


Soit une vingtaine de données en tout dans ce seul cas... Maintenant, imaginons combien de fois par jour nous accomplissons de notre plein gré de tels gestes, innocents au demeurant, multipliés par le nombre de plateformes, qui collectent à notre insu d'énormes quantités de métadonnées (outre celles que nous communiquons de nous-mêmes), associées à notre implication dans la grande conversation mondiale jamais interrompue sur Internet...

Et imaginons ensuite que toutes ces données soient agrégées, centralisées, recoupées, analysées et, surtout, corrélées à quelqu'un et à son réseau, etc., alors on comprend vite que c'en est définitivement terminé du "secret" de la vie privée. Déjà que ni l'anonymisation ni la pseudonymisation des données ne sont des garanties suffisantes pour empêcher l'identification d'un individu quelconque, il suffit de se rappeler l'affaire AOL :
En 2006, une base de données d'America On Line contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650 000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique. À la suite de quoi, l’identité et la localisation de certains utilisateurs ont été rendues publiques. Les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé.

* * *

Je ne souhaite pas entrer ici dans la discussion fort intéressante entre Antonio Casilli sur la qualification des traces que nous laissons partout à notre insu de notre plein gré (ou de notre plein gré à notre insu, à vous de choisir l'ordre) en "digital labor", et sur les fortes tensions conceptuelles qui en découlent, mais je me limiterais à souligner ce passage de Jean-Michel Salaün qui illustre fort bien ma pensée sur la "plateformisation" (c'est moi qui mets en évidence) :
Les trois plateformes de l’industrie de l’information, Apple, Google et Facebook ont été les premières réussites spectaculaires, définissant le modèle et lui trouvant un débouché commercial. (...) Chacune se rémunère différemment. Apple vend très cher les terminaux qui donnent accès aux API proposées sur sa plateforme. Google vend des mots-clés pour accrocher des annonces commerciales aux contenus que recherchent les internautes. Facebook vend des espaces publicitaires sur les pages des internautes dont il a pu caractériser les comportements grâce à leurs interrelations...

Second point très important : les algorithmes fonctionnent par un calcul sur les très grands nombres. Il a même été mis au point pour permettre ces calculs une nouvelle forme de gestion des données : les bases de données non-relationnelles ou NoSQL. Ainsi nos données personnelles recueillies ne sont qu’une petite goutte d’eau dans un océan de données. Si nous pouvions parler de responsabilité individuelle sur l’utilisation de nos données, ce qui est déjà très contestable, celle-ci serait de toutes façons tellement diluée qu’elle serait négligeable, sauf évidemment pour ceux qui retournent la puissance de calcul des plateformes à leur profit...  
Les plateformes nous observent afin de fluidifier les relations entre nous et ceux qui nous proposent des services. Mais cette observation génère un nombre considérables de données sur nos comportements. Cette accumulation a fait émerger une inquiétude quant à leur capacité à changer de registre, c’est à dire à dépasser leur fonction d’intermédiaire pour jouer un rôle politique. L’inquiétude est accentuée par les compétences en design de l’expérience utilisateur acquises par les plateformes parfois assimilées à de la manipulation. C’est sans doute la première limite sérieuse à un développement jusqu’ici spectaculaire par son ampleur et sa rapidité.
Donc voilà, work in progress... Il y a dix ans, les plateformes ne faisaient pas peur, ou pour le moins pas autant qu'aujourd'hui. Ce n'est plus le cas, donc, et souvent à juste titre. Ce qui se passe en Chine, notamment - mais pas que - avec le déploiement massif de la reconnaissance faciale, est en train de transposer la dimension IRL dans la plateforme, où l'être humain n'est plus désormais simplement un "sujet", mais aussi et surtout un "objet" : classable, analysable, empilable à l'infini...

Pour l'heure, je n'ai malheureusement aucune conclusion optimiste !



1 commentaire:

Iiro a dit…

C'est peut être naïf de ma part mais je me demande si vivre "caché" de façon anonyme est vraiment la bonne chose à faire. Je pense que tous ceux qui ont une entreprise par exemple voir même un simple site internet parfois, doivent de toutes façons afficher des mentions légales et donc un nom, une adresse, un mail...
Et pour gagner la confiance des clients il est recommandé d'afficher sa photo et de partager des "choses personnelles" pour se rapprocher des prospects. Donc finalement on partage la plupart des choses de notre plein gré non ?