Pages

mardi 20 juin 2006

Connaissez-vous le score de probabilité d'effacement ?

Connaissez-vous le score de probabilité d'effacement ?

C'est le concept au centre du brevet n° 20060129534, déposé et obtenu par Yahoo qui s'intitule :
System and methods for ranking the relative value of terms in a multi-term search query using deletion prediction

Système et procédés servant à déterminer la valeur relative des termes d'une requête multi-termes grâce à un indice prédictif d'effacement
Résumé :
The likely relevance of each term of a search-engine query of two or more terms is determined by their deletion probability scores. If the deletion probability scores are significantly different, the deletion probability score can be used to return targeted ads related to the more relevant term or terms along with the search results. Deletion probability scores are determined by first gathering historical records of search queries of two or more terms in which a subsequent query was submitted by the same user after one or more of the terms had been deleted. The deletion probability score for a particular term of a search query is calculated as the ratio of the number of times that particular term was itself deleted prior to a subsequent search by the same user divided by the number of times there were subsequent search queries by the same user in which any term or terms including that given term was deleted by the same user prior to the subsequent search. Terms are not limited to individual alphabetic words.

La pertinence probable de chacun des termes d'une requête de deux ou plusieurs termes est déterminée par leur score de probabilité d'effacement. Lorsque ces termes ont des scores sensiblement différents, le score de probabilité d'effacement peut être utilisé pour proposer au navigateur des résultats contenant des pubs contextuelles ciblées sur le ou les termes plus pertinent(s). Ces scores sont d'abord déterminés en analysant l'historique des logs du moteur relatifs à deux ou plusieurs termes dont un même utilisateur en a effacé un ou plusieurs lors d'une requête successive. Pour fixer le score de probabilité d'effacement d'un terme donné sur une requête précise, on calcule le rapport suivant : au numérateur, le nombre de fois que ce terme a été effacé avant la requête successive par un même utilisateur ; au dénominateur, le nombre de requêtes successives effectuées par ledit utilisateur où il a effacé un ou plusieurs termes contenant le terme donné avant de passer à la recherche suivante. Il est entendu que la parole "termes" ne se limite pas aux mots alphabétiques.
C'est clair ? Non ! Bon, alors voyons un exemple pratique sur le terme Honda.
  • Analyser les fichiers de log du moteur sur les requêtes à deux termes, en isolant toutes celles dont l'un des termes est Honda, le deuxième pouvant être n'importe lequel.
  • Identifer quels sont les internautes qui ont fait plusieurs recherches dont la première contenait Honda + un autre terme et ont effacé ensuite l'un de ces deux termes lors de recherches successives.
  • Pour définir le score de probabilité d'effacement relatif à Honda, compter le nombre de fois qu'un internaute a effacé l'un des deux termes du bigramme contenant Honda lors de recherches successives : disons que cela s'est produit 6 059 fois dans le cas de notre exemple. Calculer ensuite le nombre de fois où Honda a été effacé : 1 874 fois.
  • Mettre 1 874 au numérateur et 6 059 au dénominateur, ce qui nous donne un score de probabilité d'effacement pour Honda de 0,31 sur une requête bi-termes.
D'autres méthodes statistiques, telles que le lissage des données, peuvent aussi être utilisées pour calculer cet indice, appliqué ensuite pour déterminer un score de pertinence (relevance score) des termes d'une requête, avec une pondération alternative, soit des termes effacés (deletion probability of deleted term) soit des termes conservés (deletion probability of kept term) : lorsque ce score est supérieur à un seuil numérique prédéterminé, cela signifie que l'un des termes de la requête est plus pertinent que l'autre, d'où un impact à la fois sur les résultats du moteur proposés à l'internaute et sur le ciblage des pubs et autres liens sponsorisés.

L'estimation de probabilité maximale (Maximum Likelihood Estimate) permet en outre de déterminer la valeur relative des termes d'une requête donnée en établissant différentes listes :
  1. de probabilité d'effacement (Deletion Probability List)
  2. de phrases (Phrases List)
  3. de pubs (Ads List)
  4. d'exceptions (Exception List)
Les listes d'exceptions ont une fonction de filtrage pour mieux cibler l'affichage des résultats et des liens publicitaires.

Sources : Cre8asiteforums.com & Seroundtable.com

Commentaires :

1. L'idée d'origine est qu'on peut restreindre le champ d'une recherche en éliminant un terme après l'autre d'une requête multi-termes sur laquelle on n'obtient aucun résultat jusqu'à ce qu'on en obtienne un : « Queries with no matches can have words deleted till a match is obtained. » Cette phrase est extraite du résumé d'une étude d'Overture, signée par les inventeurs du brevet, qui fut probablement disponible sur le laboratoire de recherche de Yahoo mais dont on ne trouve plus trace aujourd'hui que dans le cache de Google : Query Word Deletion Prediction. La lecture de ce papier est très intéressante, en ce qu'elle explique la genèse du concept à la base du présent brevet.

2. Au-delà de cette technologie, qui se propose d'affiner la monétisation par un meilleur ciblage promotionnel, il est clair que cela impactera aussi les résultats proposés par Yahoo dans un premier temps, et aura en outre des retombées probables dans un futur plus ou moins proche pour les autres moteurs de recherche...



P.S. À noter qu'un autre brevet, le n° 20060129910, déposé pour Google à la même date que celui de Yahoo, semble décrire la fonction Autolink de Google, qui avait fait en son temps l'objet de critiques et de protestations. Il s'intitule « Providing useful information associated with an item in a document » (Fournir des informations utiles associées à un élément contenu dans un document). Via SEO by the SEA.

[MàJ - 23 juin 2006] Suite de mon P.S. : après avoir initialement fait observer à Bill Slawski que les deux brevets portaient les mêmes dates, il s'en est suivi un échange de messages fructueux, qui a débouché hier sur la publication d'un article de Bill intitulé Mining Searchers’ Queries for Information (du genre : dépouiller les requêtes des internautes pour en extraire des informations), où il retrace l'historique des études connexes, documents à l'appui. Excellente recherche, vraiment un travail de qualité. Bravo Bill !

Voici les premières lignes :
Search engines, and the people who constantly improve and update them are getting smarter and smarter when it comes to finding ways to make the results of those search engines more relevant.
One area they are paying more attention to is in search engine log files, watching how searchers interact with the search engines. I wanted to do some more research on how researchers might be looking at queries, and collected some citations to a number of pages involving that type of research.
This is by no means the canonical list of search engine/user behavior papers, but it’s a start…

(Les moteurs de recherche, de même que les gens chargés de constamment les améliorer et les actualiser, font preuve de toujours plus d'intelligence lorsqu'il s'agit de trouver des moyens de rendre les résultats des moteurs plus pertinents.
L'un des secteurs qu'ils analysent de plus près est celui des fichiers de log pour étudier comment les internautes interagissent avec les moteurs. Voulant en savoir plus sur la façon dont les analystes tirent profit des requêtes des internautes, j'ai rassemblé ici un certain nombre de documents qui abordent ce type de recherches.
Ce n'est certes pas la liste absolue de toutes les études traitant de l'interaction internautes/moteurs de recherches, mais c’est un début…)
Je vous laisse découvrir le reste, en anglais. Une fois n'est pas coutume, je vais même aller contre mes convictions et mes intérêts, mais si vous avez des difficultés avec la langue de Shakespeare, suivez ce lien... Après ça, vous comprendrez mieux pourquoi la traduction automatique a encore des progrès à faire !

Tags : , , , , , , , , , , , , , , , ,

Aucun commentaire: