mercredi 25 janvier 2006

Les co-occurrences, ou l'avenir de la recherche sur le Web



Suite : Booster son blog : mots clés et optimisation


Au début des années 2000 (ça semble hier, et c'est déjà si loin, en années-Internet...), tous les référenceurs nous disaient qu'il fallait optimiser son site en mettant en valeur les bons mots clés.
Or aujourd'hui, on parle de moins en moins de mots-clés, et de plus en plus de phrases-clés, une dénomination qui nous vient directement de l'anglais (keywords vs. keyphrases), mais qui est peu satisfaisante (le terme "phrase" véhicule l'idée d'un sens achevé, or peut-on définir "une phrase" une phrase qui n'a aucun sens ? Non ! Tout au plus un amas de mots décousus. Idem pour ces blocs de mots parfois saisis dans les moteurs). Mais là n'est pas la question...

Voici des conseils d'Olivier Andrieu, expert s'il en est, qui datent de décembre 2001 :

  • Les internautes saisissent un mot (30 à 40 % des saisies) ou deux mots (pourcentage à peu près équivalent au précédent) dans leurs requêtes, rarement plus (chiffres qui semblent d'ailleurs en opposition avec un sondage effectué par Abondance l'année précédente) :


  • Sur les moteurs de recherche, vous devrez optimiser les pages - donc leur code HTML - en tenant compte de mots clés uniques ou d'expressions majoritairement sur deux mots.

En mars 2002, une étude d'eStat et d'@position nous donne les chiffres suivants :

  • 28 % des requêtes n'ont qu’un seul mot
  • 34 % 2 mots
  • 37 % 3 mots ou plus.

En novembre 2003, selon Ad'oc, la répartition était la suivante :

  • 39% des requêtes sur 1 mot
  • 28% sur 2 mots
  • 15,4% sur 3 mots

En août 2004, d'après Onestat :

  • 19% des recherches sur 1 mot
  • 33% sur 2 mots clés
  • 25% sur 3 mots
  • 13% sur 4 mots
Enfin, plus récemment, en juillet 2005, selon Mediametrie :
  • 39 % des requêtes ont un mot clé
  • 33 % 2 mots clés
  • 17 % 3 mots clés
  • 11% plus de 3 mots clés


Donc, en gros, selon ces chiffres, dans près de 3/4 des requêtes la moyenne du nombre de mots saisis dans les moteurs iraient de 1 à 3.

Pourtant, avec l'accroissement exponentiel du Web, il semble bien que les requêtes sur 1 ou 2 mots clés diminuent fortement et laissent la place aux recherches sur 3, 4 mots et plus.

Pour en avoir le coeur net, puisque je dispose maintenant d'un échantillon représentatif, je me suis livré à quelques statistiques. Voici les résultats :

  • sur 1032 requêtes, j'obtiens un total de 5142 mots, soit une moyenne de 4,98 mots, arrondie à 5 mots par requête, bien plus que les chiffres cités plus haut !
  • en décomposant ces 1032 requêtes par mots réellement saisis, voici le détail :
  1. mot clé : 5 requêtes (0,5%)
  2. mots clés : 84 requêtes (8%)
  3. mots clés : 181 requêtes (18%)
  4. mots clés : 210 requêtes (21%)
  5. mots clés : 197 requêtes (19%)
  6. mots clés : 148 requêtes (14%)
  7. mots clés : 92 requêtes (9%)
  8. mots clés : 46 requêtes (4%)
  9. mots clés : 30 requêtes (3%)
  10. mots clés : 17 requêtes (1,5%)
  11. mots clés et plus : 21 requêtes (2%)
  • --> 72% des requêtes saisissent entre 3 et 6 mots, avec par ordre d'importance : 4 mots, 5 mots, 3 mots et 6 mots !
En conclusion, ces statistiques obtenues de façon empirique s'éloignent significativement de ce que j'ai pu lire ici et là sur le Web, puisque sur 1032 requêtes, le nombre de mots saisis va de 1 (dans 5 cas seulement) à 17 (!), avec une prépondérance (40%) des requêtes à 4 et 5 mots. Fini le temps où les requêtes sur 2 et 3 mots clés étaient majoritaires. Il y a même plus de requêtes sur 7 mots clés que sur 2 !

Ce qui voudrait dire, en reprenant le conseil d'Olivier Andrieu, que l'optimisation des pages d'un site doit maintenant prendre en compte les mots associés, ou, si l'on préfère, les co-occurrences clés.

J'ai donc fait quelques recherches pour voir si ce sujet était traité quelque part, et je n'ai trouvé qu'une source (mais si quelqu'un me lit et peut m'en signaler d'autres, je suis preneur), un billet de WebRankInfo intitulé : « Calculer l'indice de co-occurrence et le ratio E/F »

Je n'ai pas vraiment compris la signification du ratio E/F (Exposure/Frequency ?), mais j'ai voulu tester l'outil avec la co-occurrence "traduction anglais français" :

Donc, si j'en crois les explications données pour l'indice de co-occurrence, qui « mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes. », je ne devrais pratiquement jamais rencontrer "traduction anglais français", mais très souvent "traduction anglais" et "anglais traduction".

Vérification pratique sur Google :


Et encore, uniquement sur le Web francophone. J'ai essayé l'outil Suggest de Google (malheureusement, l'interface n'est disponible qu'en anglais pour le moment), qui vous suggère le nombre d'occurrences trouvées au fur et à mesure que vous tapez le mot dans l'onglet de recherche, et sur "traduction anglais français" les résultats (1 150 000) sont multipliés par plus de 20 :

traduction anglais français : 1150000 résultats

Donc, même si la pertinence de l'outil français présenté ci-dessus n'est pas au rendez-vous, ça va dans le bon sens !


, , , , , , , , , ,

3 commentaires:

Anonyme a dit…

Bonjour

Bravo pour cette rétrospective sur les nombre de mots dans les expressions de recherche.
Plus récemment il y a également ce post http://www.webrankinfo.com/forums/viewtopic_54870.htm
qui présente les données de wysistat (outil d'analyse d'audience qui propose cette info dans ses rapports)

Selon mon expérience, cela dépend en fait beaucoup des sites et de leur public (quand 25% tapent le nom du site dans google, ça biaise tout de suite les résultats par exemple).

Ce qui est sûr c'est que c'est très à la mode dans le 'niche marketing', et c'est bcp plus facile d'avoir un bon poisitionnement sur 4 ou 5 mots que sur un seul.

La grande lacune c'est qu'aucun outil de mesure d'audience ne propose pour l'instant d'analyse des co-occurences des expressions de recherche...

à suivre :-)

Unknown a dit…

Bonjour,

Deux petites remarques sur la manière dont les stats ont été faites à partir des 1000 premières entrées...
1/Selon ce que j'ai compris:
- Les 1000 "phrases" sont celles qui ont été le plus saisies pour accéder au blog
- les stats ont été faites sur le nombre de mots de chacune de ces 1000 phrases.
Je pense donc que, pour qu'elles soient plus juste, il faudrait pondérer le poids de chacune des phrase par le nombre de fois où elles ont été utilisées. Ceci jouerait probablement en faveur des phrases "courtes" qui seront probablement (au sens statistique du terme...) utilisées un plus grand nombre de fois.
2/ les phrases courtes mènent généralement à des sites plus commerciaux. Pour rechercher les agences de voyage les plus présentes, il suffira de taper "voyage". Et je pense que ce genre de requête est très souvent utilisé par les internautes, et mène rarement vers des blogs, du moins dans les premiers résultats. En d'autre termes, l'échantillon des 1000 phrases n'est pour moi pas représentatif de l'ensemble des requêtes qu'un moteur de recherche peut avoir à traiter.
Ces conseils restent donc valable, à mon avis, pour une catégorie plus précise que sont les blogs et autres pages perso.

Cédric.

Traduction Anglais a dit…

Un élément à observer, concernant le nombre de mots qui composent une requête, est de savoir *où* est analysé la requête.

Je pense que les enquêtes mentionnées font référence à l'utilisation des moteurs de recherche. Pour autant, si un navigateur n'est pas satisfait des résultats du moteur de recherche sur son expression, il va de nouveau chercher autre chose... Elément qui n'est pas visible lorsqu'on analyse le trafic entrant d'un site Web.

D'ailleurs, ce que ne précisent pas ces enquêtes, c'est le nombre de clics auxquelles mènent les recherchent sur un seul mot-clé.

Comme le nombre de pages Web augmente et que les Internautes sont de plus en plus à l'aise avec l'outil, il devient, respectivement, nécessaire et naturel, de raffiner ses recherches. Donc si beaucoup débutent une recherche avec un seul mot-clé, "pour voir", nombreux sont ceux à étendre la longueur de la requête, tout simplement pour cibler davantage leur demande.

Enfin, je pense que la notion de co-occurence est utile comme outil d'analyse statistique. Pour faire le point sur ce qui a marché ou pas, comparer, et tirer des leçons. Le nerf de la guerre, pour autant, reste de composer du contenu utile, où densité et co-occurences atteignent naturellement des valeurs utiles. Le but de Google, rappelons-le, est de mesurer la popularité et l'utilité des pages Web. Rendez service à vos visiteurs et Google s'en rendra compte.