Pages

dimanche 14 octobre 2007

Graphe sémantique de 100 blogs influents

Graphe sémantique de 100 blogs influents


Après le graphe social, voici le graphe sémantique. Quelque chose qui me touche de près (cf. humain sémantique) et à quoi je pense depuis longtemps, sous forme de nuage sémantique :
Le but serait de créer un nuage de mots clés à partir de l'univers lexical d'un blog ou d'un site.
Je ne parle pas de tags. Je parle d'une fonctionnalité qui indexerait l'intégralité d'un site ou d'un blog à un instant donné pour l'analyser et restituer les cooccurrences plus significatives du blog ou site considéré.
Le nuage correspondant serait alors fourni par Exalead au blog/site qui pourrait l'intégrer au mieux.
Une fonctionnalité proposée il y a un an à Exalead (qui l'a refusée) (Merci Jean-Marie pour la proposition mais cette fonctionnalité ne peut être développée pour le moment. Nous reviendrons sur cette fonctionnalité dès que nous aurons avancé sur d'autres sujets, les blogs par exemple), en même temps que la possibilité pour les webmasters d'intégrer un flux personnalisable de résultats sur leurs pages.

L'idée derrière ces deux propositions était, selon moi, une voie détournée en vue d'une utilisation de masse d'Exalead :
Je pense que l'approche Exalead vs. Google n'est pas la bonne, en ce moment ce serait un peu la lutte du pot de terre contre le pot de fer. Et quand bien même les qualités du pot de terre seraient infiniment supérieures à celles du pot de fer, en l'état actuel des choses, il faut bien reconnaître que c'est Google qui rafle la mise.
Perso, qu'on excuse ma franchise, mais j'utilise Google à longueur de journée, j'en suis très satisfait, et je n'ai aucune intention de changer de moteur. Et je pense que nous sommes des millions dans ce cas.
Donc, plutôt que d'attaquer Google de front, je me dis qu'une meilleure stratégie pourrait être de viser d'abord la complémentarité au lieu de vouloir l'opposition à tout prix. En déplaçant les enjeux sur le terrain des services personnalisables, plus que jamais dans l'air du temps.
Concrètement, ça veut dire qu'en fournissant potentiellement à des millions d'utilisateurs des services perso qui se démarquent fortement de ceux de Google, et en imprimant à ces services une marque fortement identitaire, en l'occurrence celle d'Exalead, ces millions d'utilisateurs pourront voir cohabiter sur leur page d'accès personnalisable au Web (dans la mouvance des Netvibes, Webwag and co.), de plus en plus de services fournis par Exalead au côté de leur onglet de recherche préféré, que ce soit Google, Yahoo, MSN, Ask ou autre.
Ce serait là un moyen non intrusif de proposer l'utilisation d'Exalead à des utilisateurs qui ne l'utiliseront peut-être jamais sans cela.
Enfin, un autre avantage du fait que ces services soient développés par un moteur français à l'origine, c'est qu'en général tous les services proposés par Google (autocomplétion et autres...) sont optimisés pour l'anglais mais aux dépens des autres langues. C'est donc une piste supplémentaire à parcourir en direction de toutes les familles linguistiques qui se sentent un peu délaissées sur le Web, et qui représentent quand même globalement, plus que toute l'audience anglo-saxonne réunie.
Bref, tout ça est resté lettre morte, dommage.

C'est donc avec une grande surprise - et un grand bonheur - que j'ai découvert il y a quelques jours la première (à ma connaissance) cartographie sémantique de blogs. Qui reprenait le top 10 Wikio des blogs francophones. (via GuiM)


Et son auteur, Hubert WASSNER, prof d'informatique, d'expliquer :
La sémantique est l'analyse du sens des mots, c'est donc un savoir faire typiquement humain. Cependant une analyse fine de la masse d'information accessible sur internet peut permettre de calculer des distances entre les mots. Cela ne donne pas directement leur sens mais on peut utiliser cette information pour construire une carte de manière automatique.
On visualise leur distances sémantique que l'on a calculé grâce à des requêtes sur un moteur de recherche. Des liens élastiques sont simulé pour essayent de faire respecter toutes les distances entre les mots analysé. Le résultat est un graphe ou les mots son disposé sur un plan de manière a respecter au mieux possible les distances sémantiques.
Où l'on voit bien sur le graphe que le noyau est composé de Techcrunch, Loïc Le Meur, Fred Cavazza, GuiM et Mashable, avec aux pourtours, Embruns, Presse-citron, KelBlog, BigBangBlog et Versac.

Le noyau ayant un univers sémantique plus proche et ciblé que les pourtours. On voit donc que le classement sémantique peut diverger du classement ordinal (Presse-citron, par exemple).

Or le Professeur Wassner vient de réitérer l'expérience avec le top 100 de Wikio, où Adscriptor est 77e ce mois-ci, en nous expliquant que :
La couleur des bulles contenant les noms des blogs est en rouge d'autant plus vif que son classement est bon. Le positionnement dans l'espace ainsi que les liens (matérialisé par des traits noirs) sont issus d'un calcul de mesure de distance sémantique. Il ne s'agit pas de lien "internet" (lien hypertexte) mais de ce que les gens disent de ces blogs sur internet... Certain blogs peuvent être sémantiquement très proches d'un blog du "top 10" et ne pas du tout être bien classés... On voit ici les limitations des systèmes à base de classement.
Donc, de fait, sémantiquement parlant, Adscriptor serait dans le top 50.



Je ne dis pas ça pour me faire mousser (bien que je tienne beaucoup à cette reconnaissance sémantique), mais simplement parce que je trouve que mes stats ne reflètent aucun de ces 2 classements, puisque mon nombre de visiteurs quotidiens oscille entre 200 (le plus souvent) et 300 (dans les bonnes périodes), ce qui doit être l'un des taux de fréquentation - et de participation - les plus faibles du top 100.

Alors pourquoi ? That's the question. Si vous avez la réponse...


Partager sur Facebook

P.S. Nous n'en sommes pas encore au "nuage sémantique" mentionné en ouverture de ce billet, mais c'est déjà une bonne étape. Je suis sûr que si quelqu'un développait un tel widget ou une appli pour Facebook (sur les différences entre apps et widgets...), par exemple, il ferait un carton. Malheureusement je n'en suis pas capable. Faut dire aussi que j'ai toujours de ces idées...

, , , , , , , ,

3 commentaires:

Anonyme a dit…

"entre 200 et 300"
Seulement ? c'est toutefois étonnant au vue de la pertinence de vos articles.

Tubbydev a dit…

Sauf qu'il faudrait ôter des résultats les copies passées de l'un à l'autre; Une petite expérience serait assez utile. Prendre les blogs par exemple du classement wikio, et faire leur nuage. Ensuite écrêter le résultat en enlevant les mots les plus communs

alex de Referencement Blog a dit…

Bonjour Jean-Marie,

200-300 visiteurs ce n'est pas étonnant, vos articles sont trop long, on ne peut pas tout lire :D

Par contre, je me répète : quelle plume! quelle aisance! :D