Adscriptor: Adscriptor en nuages

mardi 27 janvier 2009

Adscriptor en nuages

Dans les commentaires de mon précédent billet, je réponds la chose suivante à Szarah :

À la question « Je me demande s'il serait possible de dégager la thématique véritable du discours au départ des mots », pour moi la réponse est évidente : OUI !
Je fantasme sur les nuages sémantiques depuis longtemps, et maintenant que je dispose d'outils pertinents pour en faire (binôme Quensis + Wordle), je souhaite vraiment approfondir ce filon d'une extrême richesse.
Si je devais faire un parallèle, je dirais que ça me fait penser à la graphologie.
L'écriture en dit toujours beaucoup plus qu'on ne croit sur le scripteur.
Dans les fréquences signifiantes autant que dans les hapax...

Dès le début de ma réflexion et du feedback à Exalead, l'idée était de créer un nuage de mots clés à partir de l'univers lexical d'un blog ou d'un site.

Je ne parlais pas de tags, qui sont plus ou moins ponctuels, mais d'une fonctionnalité qui indexerait l'intégralité d'un site ou d'un blog à un instant donné pour l'analyser et restituer les (co)occurrences plus significatives du blog ou site considéré. Ce type d'analyse intégrale serait censé faire ressortir des centres d'intérêt dont l'auteur n'est qu'à moitié conscient, c'est un peu le même principe que ce que font les chercheurs ou les universitaires lorsqu'ils analysent la sémantique d'une oeuvre, d'un livre.

Un peu comme si les tags étaient la partie consciente, délibérément choisis, alors qu'en revanche le principe du nuage sémantique serait de faire ressortir l' « inconscient », toujours très riche en enseignements.

Donc aujourd'hui que j'ai la possibilité de réaliser moi-même cette analyse en prenant Adscriptor comme cobaye, je ne vais pas m'en priver. J'ai ainsi réalisé trois nuages, les deux premiers à partir de mes tags pris à différents moments de l'évolution du blog :

- 21 tags sur 348 ayant une fréquence d'occurrences égale ou supérieure à 10 en septembre 2006 :

- 123 tags sur 800, dans la lignée de mes précédentes statistiques, ayant une fréquence d'occurrences égale ou supérieure à 7 en janvier 2009 :

et le troisième en analysant l'intégralité du contenu texte (sans les tags), soit 587 billets en 37 mois de blogging, pour un total de 522 944 mots avant traitement et 532 905 occurrences après traitement (apostrophes changées en retour chariot, etc). D'où une moyenne globale de 14 403 mots/mois et 908 mots/billet, soit pour arrondir 16 billets de 900 mots chacun par mois :

Donc si l'on enlève le tag "Actualités", qui représente la moitié du total des billets mais dont il est évident que le terme est absent de leur contenu, on voit bien qu'il y a une très forte corrélation entre les tags et les thèmes majeurs qui ressortent de l'analyse de plus de 530 000 mots !

Ainsi mon idée d'automatisation d'un système de nuages sémantiques prévoyait ce genre d'analyse, soit sur tout le contenu d'un blog/site, soit sur des thèmes donnés : analyser uniquement les billets tagués Google ou Facebook, par exemple. Cela permettrait une granularité encore plus fine, avec en sortie des nuages clicables (vers les billets où sont mentionnés les termes) et widgétisables. Mais Exalead n'en a pas voulu, dommage...

Ils ont pourtant lancé CloudView^TM, comme le rapporte François Bourdoncle dans cette interview.

Pour en revenir à mon blog, j'ai été fort étonné de la prépondérance absolue de GOOGLE (2447 fois), qui représente plus du double des deux occurrences significatives suivantes : INTERNET (1174 fois) et WEB (1074 fois, dont 154 fois pour Web 2.0). Ainsi, contrairement à ce que laissent supposer les tags, Google est beaucoup plus présent dans mes billets que je n'imaginais (avec une moyenne supérieure à 4 occurrences par billet !), Yahoo est traité davantage que Microsoft, et j'observe un déplacement progressif des questions techniques (référencement, monétisation, écriture Web, etc.) vers une vision plus large du Web et de l'Internet. Globalement, il y a cependant cohérence entre les tags et les thèmes qui se dégagent de l'analyse.

Voici le début du tableau :

Anecdote : le décompte me donne 4705 JE (3046 JE + 1659 J’) sur 532 905 occurrences, soit une moyenne d'utilisation de 9 sur 1000 (mais après tout ce blog est rédigé à la première personne), à peu près moitié moins que Sarkozy (17 fois sur 1000), dont le score est pourtant plus modeste qu'on ne pourrait le croire !

Jean-Marie Le Ray