jeudi 17 août 2006

La recherche sociale vue par Chris Sherman

La recherche sociale vue par Chris Sherman

Chris Sherman, éditeur associé de Search Engine Watch vient de publier deux articles analysant la recherche sociale, particulièrement intéressants à l'heure actuelle, où la recherche est de plus en plus considérée comme le cœur de l'Internet :
  1. What's the Big Deal With Social Search?
  2. Who's Who in Social Search
Avec son autorisation, je vous propose une libre traduction du premier, auquel j'ajoute une brève introduction au second, paru après avoir reçu son accord :

1. Les tenants et les aboutissants de la recherche sociale

Bref historique de la recherche sociale
Plusieurs raisons à cela

La recherche sociale fait de plus en plus parler d'elle, mais en dépit de cet engouement elle n'est pas prête à remplacer la recherche algorithmique traditionnelle.

Or de quoi parle-t-on ? Il n'y a pas vraiment de bonne définition de ce qu'est la recherche sociale, puisque les acteurs qui s'y intéressent à un titre ou un autre ont tous une approche différente. En termes simples, les outils de recherche sociale sont des services permettant de trouver sur Internet les parcours à l'information, services "informés" par le jugement humain.

Parcours à l'information, car ce ne sont pas des moteurs de recherche au sens strict, tels que la plupart des gens les connaissent. Jugement humain, pour signifier qu'une personne ou plus, probablement des dizaines et des centaines, ont « consommé » un contenu donné et décidé qu'il avait suffisamment de valeur pour le recommander à d'autres.

Pour autant le terme "informés" a plusieurs significations. Lato sensu, "informés" veut dire "influencés", et dans le meilleur des mondes cette influence est positive, utile, salutaire. Or malheureusement, dans les résultats à nos recherches, certaines influences "informées" proviennent de gens largement non-informés, quand ce ne sont pas de parfaits idiots.

La recherche sociale revêt des formes variées, du simple partage de favoris ou de contenus catégorisés par des tags descriptifs à des approches plus sophistiquées mêlant intelligence humaine et algorithmes informatiques. Mais en dépit de toute l'attention récemment accordée au sujet, ce n'est pas réellement un phénomène nouveau. Donc pourquoi rencontre-t-il autant de succès ? Pour le comprendre, il est bon de faire un retour en arrière sur la recherche médiée par l'humain. [Début]

Bref historique de la recherche sociale

La recherche sociale existe depuis le tout début d'Internet. Avant même l'apparition des premiers moteurs, en 1993 ou dans ces eaux-là, les gens hyperliaient leurs sites favoris. L'une des premières listes fut créée par l'inventeur du Web, Tim Berners-Lee, et elle est encore en ligne, même si la plupart des liens de la page sont cassés depuis longtemps.

Yahoo, l'un des premiers répertoires de sites Web, a été créé par une équipe d'éditeurs humains surfant sur Internet et rédigeant de courts descriptifs des sites qu'ils trouvaient. D'autres exemples de cette nature sont l'Open Directory Project, le Librarians' Index of the Internet, et, au Royaume Uni, le Resource Discovery Network, tous présents depuis les débuts du Web.

On pourrait objecter que les moteurs et leurs algorithmes sont aussi, dans une certaine mesure, des systèmes de recherche sociale...

En réalité, le célèbre PageRank de Google, qui analyse les structures de liens du Web et attribue plus ou moins d'importance aux pages ayant de nombreux liens "hautement qualitatifs" pointant vers elles, est à la base une forme de recherche sociale. Pourquoi donc ? Parce que le PageRank s'appuie sur le jugement collectif des webmasters liant différents contenus du Web. En bref, les liens seraient des votes positifs exprimés par la communauté des webmasters pour leurs sites favoris.

Or aujourd'hui la recherche sociale évolue en intégrant des agents automatisés aux jugements humains sur la nature du contenu. C'est d'ailleurs ce qui la rend à la fois fascinante et fondamentalement imparfaite, tout au moins en l'état actuel des choses. [Début]

Plusieurs raisons à cela

Indépendamment du nombre de personnes impliquées dans les différentes activités de "socialisation" de la recherche, l'ampleur et la portée du Web sont telles qu'une quantité significative de contenu ne sera pas prise en compte par ces activités. Tout simplement parce qu'Internet évolue trop vite pour que les gens puissent suivre.

Cela ne veut pas dire que la recherche sociale est vaine - dans nombre de cas elle est même très utile -, ça signifie simplement que la recherche médiée par les gens ne sera jamais aussi exhaustive que la recherche "motorisée" par les algorithmes.

Une autre difficulté est liée à la catégorisation, puisque malgré la popularité des tags, surtout dans la mouvance un peu cacophonique du Web 2.0, ceux-ci ne sont pas la panacée pour catégoriser et organiser le Web. Toutefois, bien employés, ils sont utiles pour mieux décrire le contenu.

Les problèmes naissent autant avec l'ambiguïté inhérente aux mots de la langue courante, qui ont diverses acceptions, qu'avec les interprétations multiples que se font les gens d'un même mot.

Une lacune du Web est l'absence de ce que les bibliothécaires appellent un « vocabulaire contrôlé », un ensemble de termes qui ont une signification précise, sans ambiguïté, pouvant être utilisés de façon uniforme et cohérente par celles et ceux qui veulent étiqueter le contenu du Web. Mais sans vocabulaire contrôlé, la catégorisation par les tags restera toujours chaotique et embrouillée.

Un autre facteur est la tendance naturelle à la paresse chez les humains. Même en disposant d'un vocabulaire contrôlé, nombreux sont ceux qui ne s'en serviront pas. La possibilité d'ajouter des tags ou autres métadonnées existe depuis longtemps sur les logiciels de la suite Office de Microsoft, or combien les utilisent ?

Enfin, n'oublions pas les nuls et les spammeurs. Beaucoup de gens, en dépit de leurs bonnes intentions, feront vraisemblablement n'importe quoi, et d'autres tenteront délibérément de tromper les moteurs. Or dans les deux cas, il sera difficile aux agents logiciels de reconnaître le contenu mal catégorisé. Dans la recherche sociale, il est difficile de bien filtrer le rapport signal/bruit.

Malgré les questions évoquées ci-dessus, la recherche sociale reste prometteuse pour améliorer nos recherches d'informations et toutes nos activités chronophages sur le Web. Au final, il est probable que c'est un mix de recherche algorithmique et des différentes formes de recherche sociale qui nous donnera un système hybride, capable de véritablement satisfaire une large gamme d'exigences informationnelles.

Nous n'en sommes pas encore là, mais je m'attends à voir des progrès significatifs dans les deux ans à venir. [Début]

* * *

2. Le Who's Who de la recherche sociale

Dans son deuxième billet, Chris identifie six catégories d'acteurs de la recherche sociale, en donnant une brève description de chacune et des liens vers les sociétés les plus significatives. Je vous y renvoie pour découvrir et visiter ces sites.

« De nombreux acteurs évoluent dans le monde de la recherche sociale... Ça va des majors du Web aux petites entreprises, qui créent des outils de recherche sociale pour en faire leur cœur de métier et se distinguent par une technologie ou une approche spécifique. Ce qui suit n'est pas un panorama exhaustif de l'existant, mais plutôt un échantillon de quelques-uns de ces acteurs.

À noter que la plupart des services énumérés ici couvrent pas mal de contenu intéressant, mais tendent à refléter les penchants de leurs utilisateurs plus actifs. Et de même que les gens qui ont beaucoup en commun gardent nombre d'intérêts largement divergents, on enregistre souvent un certain taux de bruit, avec des résultats non pertinents.
  1. Partage de favoris et de pages Web
  2. Annuaires collaboratifs
  3. Agrégateurs/moteurs de tags
  4. Outils verticaux personnalisables
  5. Sites sociaux de Questions/Réponses
  6. Fédérateurs collaboratifs
[Juste un éclairage sur les points 4. et 6., un peu moins connus que les autres.]

Les outils verticaux personnalisables représentent une approche relativement nouvelle à la recherche sociale. Ils permettent à chacun(e) de se créer son propre moteur de recherche spécialisé dans un argument bien défini. Une fois le domaine choisi, le moteur construit un index pertinent et vous n'avez plus qu'à l'affiner en faisant les dernières mises au point.

Vous pouvez également inclure vos propres pubs dans les résultats de "votre" moteur, ce qui vous permet de monétiser votre travail et de concurrencer, à votre niveau, les grands moteurs généralistes.

(...)

Quant aux fédérateurs collaboratifs (point 6., Chris utilise
"harvesters", littéralement "moissonneurs"), ce sont de nouveaux outils faisant appel au concept de sagesse des foules. Lorsqu'un utilisateur trouve un service intéressant, il le soumet aux autres et la communauté vote ou note le contenu, après quoi celui qui est le plus voté (ou le mieux noté) est proprosé comme source recommandée au reste de la communauté. » [Début]


Tags , , , , , , , , ,

1 commentaire:

Anonyme a dit…

Merci pour ce billet. Pour compléter le point 4 du dernier paragraphe (Les outils verticaux) ; Google Coop en est un excellent exemple, il
qui a l'intelligence d'associer la recherche algorithmique et une approche sociale de part la limitation du spectre de recherhce à des sites "de confiance" dans un domaine précis (vertical). Cette démarche, si Google décide de l'aggréger à une échelle globale pourra vraiment présenter un intérêt du point de vu de la qualité des résultats et faire diminuer le bruit.
Il faudrait pour celà faciliter l'accès à cette fonctionnalité qui reste encore complexe pour l'utilisateur (webmaster, blogmaster,...) non averti. Plus de détails ici :
http://www.kerignard.com/blog2/2006/11/google-coop-co-op.html

Philippe ;-)