lundi 1 octobre 2007

Index Google, Yahoo, Microsoft : comparaison

Une comparaison de l'index des moteurs de Google, Yahoo, Microsoft

[Mise à jour, 1er février 2008] Microsoft rachète Yahoo!, ce billet devra bientôt être rangé au rayon archéologie du Web...

English version / Version anglaise

Introduction
La taille des index
L'index de Google
L'index de Yahoo
L'index de Microsoft
Le cache et le rafraîchissement des index
Conclusion

[MàJ - 5 octobre 2007] 5 jours après la publication de ce billet, 118 pages du site sont indexées sur Google, qui gagne sur toute la ligne : exhaustivité, pertinence, rapidité. Sans appel !


Yahoo et Microsoft en sont toujours au même point... Et ne parlons pas des autres : inconnu chez Ask, tandis qu'Exalead présente la vignette d'un service de parking pour mon site, mis en parking il y a plus d'un an. Bonjour la pertinence (c'est l'exception française) !

* * *

Introduction

Voici quelques jours, j'ai mis en ligne XBRL.name, un glossaire en 7 langues sur la terminologie IFRS.

D'une part, j'ai eu la surprise de voir que le nom de domaine, déjà présent sur le site Studio92.net depuis plus de deux ans, avait conservé le PR4 de la page qui l'accueillait, mais ça ne devrait pas durer !


De l'autre, vous pouvez imaginer combien je suis à l'affût pour voir quand est-ce que mon site sera indexé dans les moteurs. Je contrôle tous les jours sur GYM. Les résultats sont édifiants ! Voici la situation au 1er octobre, le site ayant été mis en ligne le 23 septembre, soit en huit jours.

Je précise qu'il n'est pas terminé, seul 1/7 du site est complété, soit un peu moins de 200 pages sur environ 1400 prévues une fois le site achevé.

Enfin, ce billet ne prétend nullement à plus que ce qu'il est : le simple suivi sur une semaine de l'indexation d'un nouveau site. Rien de scientifique là-dedans, juste une expérience personnelle. [Début]

* * *

La taille des index

Il est acquis que chacun des trois index dépasse amplement les 20 milliards de pages Web !!! Pour les nostalgiques, voir ici...

Les moteurs ne communiquent plus trop là-dessus, sauf Microsoft qui tient à faire savoir qu'il a comblé son retard, en multipliant par 4 la taille de son index : de 5 milliards à 20 milliards de pages. OK !

Pourtant, Yahoo annonçait déjà plus de 19 milliards de pages en ... août 2005 (malgré les interrogations de Jean Véronis), et Google 24 milliards de pages 3 mois plus tard (voir ici, fin de page 5) !

Donc même si je suis en partie d'accord avec Eric Enge quand il déclare que la différence entre 20 et 24 milliards de pages n'est pas significative, alors qu'elle compte beaucoup entre 5 et 24 milliards (At some level, the exact index size is not a big issue, unless, your index is simply too small), je le suis moins lorsqu'il pense que l'augmentation de la taille de l'index est corrélée à l'augmentation de la pertinence (In short, Microsoft needed to make a move of this type to improve their relevance).

La pertinence ne dépend pas forcément de la couverture (What's at issue is coverage... and if you don't have the related sites in the index, you can't return the right result), puisque le moteur peut très bien avoir le site pertinent dans son inventaire et rester silencieux (c'est-à-dire ne pas sortir le résultat).

Et bien évidemment, Microsoft a présenté une démo pour illustrer son point de vue, notamment sur "shelli segal" et le site d'un designer correspondant, qui apparaît en premier sur Live Search mais a le grand tort d'être absent de l'index de Google !

Pourrait-on soupçonner Microsoft d'avoir concocté une recherche ad hoc uniquement pour mieux justifier sa pertinence, pertinence, pertinence ?

Un bon moyen de le savoir est de tester avec xbrl.name, face auquel les trois moteurs sont à armes égales, puisqu'il a été mis en ligne il y a 8 jours sans être volontairement soumis à leur indexation, sinon en mettant le lien sur mon blog et dans quelques autres sites. [Début]

* * *

L'index de Google

Jusqu'à hier Google retournait globalement 190 résultats et donnait pour le site l'extrait suivant :
My SPIP site. Search. Home page. My SPIP site. Follow-up of the site's activity RSS 2.0 | Site Map | Private area | SPIP | template.
C'est-à-dire qu'il gardait en mémoire l'installation de SPIP à laquelle j'ai procédé pour tester, avant d'opter pour un site en HTML.


Mais aujourd'hui, soupir de soulagement, Google retourne globalement 300 résultats et voit enfin la nouvelle version du site :


Conclusion, sur Google, le site a été naturellement pris en compte en 8 jours, même si le contenu du glossaire ne semble pas encore indexé. [Début]

* * *

L'index de Yahoo

Yahoo retourne 30 résultats et l'extrait suivant :
This is the placeholder for domain xbrl.name. If you see this page after uploading site content ... This page has been automatically generated by Plesk.
Plus une page correctement indexée. Quid des quelque 200 autres ?

Yahoo présente donc un dizième des résultats de Google et 1 seule page indexée. [Début]

* * *

L'index de Microsoft

Un seul résultat ! Point barre. Même extrait que Yahoo.


Plus la petite phrase qui tue : « Live Search vous satisfait-il ? Dites-le nous. »

Que dire ? Qu'au vu de ce qui précède, Microsoft mérite bien sa troisième place. De bon dernier !

Un classement confirmé par les statistiques de fréquentation de mon blog, comme il ressort du tableau ci-dessous :

stats Adscriptor septembre 2007
Les moteurs, à l'origine de 2 826 visites sur Adscriptor au mois de septembre, ont représenté 41,21% de la fréquentation totale (188 visiteurs et 242 pages vues par jour, avec un temps de consultation moyen de 1'35'' par visite) (tout le monde ne s'appelle pas Otto, heureusement pour lui ;-).

Or avec 2 575 liens référents, Google représente à lui seul +91% de cette fréquentation, contre 5,4% pour Yahoo et 3 fois moins que Yahoo pour Microsoft. Une supériorité écrasante. Pourquoi ?

Enfin ! Il est certain que si Google n'était pas là, je serais présent sur Internet ... sans aucune visibilité dans les moteurs ! [Début]

* * *

Le cache et le rafraîchissement des index

Outre la taille et la pertinence, un dernier aspect relatif à l'index des moteurs concerne sa fréquence de rafraîchissement, avec un cycle de cache qui s'est considérablement raccourci ces derniers temps pour Google (je n'utilise pas assez Yahoo et Microsoft pour pouvoir me prononcer sur ce point). Avant on avait l'impression que le cache restait assez longtemps et qu'on pouvait récupérer des infos plusieurs semaines après, alors qu'à présent ce n'est plus qu'une question de jours. Exemple : j'ai pu récupérer pratiquement toutes les interviews bidons d'Alexis Debat, alors que plus les jours passent moins on en trouve trace. [Début]

* * *

Conclusion

À propos des performances proclamées par Microsoft, Eric Enge a raison de déclarer :
Ultimately, the point is, you can't return the right result if the site you should be returning for a given search is not in your index.

En dernier lieu, le fait est que vous ne retournerez jamais le bon résultat si le site pertinent pour la requête correspondante n'est pas dans votre index.
C'est clair. Mais il est encore pire d'avoir ce site dans son index sans comprendre que le site pertinent, c'est justement celui-là ! [Début]


P.S. Bon, et bien on dirait que Yahoo et Microsoft n'abandonnent pas la partie. Ils ont dû lire mon billet pendant la nuit !

En cherchant sur Yahoo Search, récemment amélioré (voir les détails, ici et ), l'outil ne propose encore aucune suggestion :


mais a enfin indexé correctement la page d'accueil (rien de changé pour le reste, globalement 31 résultats et seulement 2 pages du site).


Pour Live Search également, l'indexation est maintenant correcte pour 2 pages du site, qui sont les seuls résultats proposés.


Pendant ce temps, Google est passé de 17 à 47 pages indexées : toujours une longueur d'avance, et même plusieurs...

Ceci dit, vu le nombre de pages Web sur Internet (???), c'est quand même remarquable de voir qu'un nouveau site est indexé en 8 jours sur GYM. Et on comprend mieux pourquoi les prochaines étapes de la recherche à l'horizon 2010 seront :
  1. verticalisation des moteurs
  2. personnalisation des résultats
  3. recherche universelle
Sans oublier la recherche locale...

, , , , , , , , ,

6 commentaires:

Anonyme a dit…

Bonjour Jean-Marie,

Oups je crois que je me suis trompé d'article sur mon dernier commentaire. Pouvez-vous la déplacer ?

Par ailleurs, suite à notre discussion sur une éventuelle association de référenceurs, je rencontre David Degrelle demain midi pour en discuter, je vous ferais un retour.

Rappel :

http://adscriptum.blogspot.com/2007/01/ce-que-les-anglo-saxons-nous-enseignent.html

Jean-Marie Le Ray a dit…

Autre commentaire d'Alex laissé par inadvertance sur le précédent billet mais destiné à celui-ci :

« Bonjour Jean-Marie,

L'indexation c'est effectivement important, mais la pertinence l'ai beaucoup plus.

Si sur le premier point Google est leader sur le second il n'ai pas loin de l'être aussi.

Pour le vérifier il suffit de faire quelques requetes concurrentiels pour voir apparaitre du spam sur MSN et Exalead, mais moins souvent sur Google, Yahoo et Ask.

En exemple la requete "obesite" :

Yahoo ajoute une redondance de site inutile (obesite-sante.com)en ligne 4 et 7.

Ask propose des réponses non présente chez la concurrence avec plusieurs études officiels (intéressant pour les recherches).

Exalead propose en 4ème ligne un site MFA http://tpeobesite.free.fr

MSN pousse sa nulité à proposer en 1ère ligne un Parking http://obesite.net

Une comparaison qui ne prouve bien entendu rien en soit, mais quiconque à déjà utilisé Exalead ou MSN a remarqué ces horribles sites MFA. »

- Alex,

Je n'ai pas insisté sur la pertinence dans mon billet, car pour moi il était implicite que, dans ce cas, la pertinence était aussi dans la quantité.

Si sur un terme Live Search fournit 2 résultats, Yahoo Search 30 et Google 300, qui sont tous en rapport avec la requête, alors il est évident que Google est 10 fois plus pertinent que Yahoo et ... 150 fois plus que Microsoft.

C'est caricatural comme exemple, certes, mais pas tant que ça.

Jean-Marie

P.S. Bonjour à David, et bon travail :-)

Anonyme a dit…

Bonjour Jean Marie,

Je ne suis pas tout à fait d'accord sur le fait que la pertinence est liée aux nombres de résultats, pour deux raisons.

Le nombre de résultats à une requête est souvent composé de plusieurs milliers de pages de résultats, or une personne regarde rarement plus que la première page, du coup la probabilité que le moteur sorte les 10 premières pages les plus pertinentes est minime.

Par ailleurs, comment définir la pertinence ? Pour une même requête, la pertinence ressentie peut être différente selon la logique de l’internaute (d’où les résultats personnalisés à venir), et cela ne dépend en aucun cas du nombre de résultats retournés.

Je pense d’ailleurs, s’il y a un nouveau moteur qui doit apparaître aujourd’hui pour concurrencer Google, il devra investir dans la pertinence plutôt que le volume d’indexation.

PS : J'ai hâte de vous voir à nos apéro référencement :D

Jean-Marie Le Ray a dit…

Alex,

On est d'accord ! Mais ma phrase exacte c'était : "Je n'ai pas insisté sur la pertinence dans mon billet, car pour moi il était implicite que, dans ce cas, la pertinence était aussi dans la quantité."

Dans ce cas, c'est-à-dire d'une requête bien précise, sur un nom de domaine, et non pas sur un nom commun ou une requête quelconque.

Donc, dans le cas de xbrl.name, la pertinence, selon moi, ça veut dire deux choses :

1. trouver le domaine
2. trouver toutes les pages indexées du domaine

Seul Google y réussit. Avec MSN j'en suis encore à 3 résultats ! Et pourtant, plus de deux semaines se sont écoulées.

Donc, je le répète, dans mon exemple, je considère que ni Yahoo ni MSN ne sont pertinents comme l'est Google, mais ce que je dis ne vaut que pour ce billet, qui "ne prétend nullement à plus que ce qu'il est : le simple suivi sur une semaine de l'indexation d'un nouveau site. Rien de scientifique là-dedans, juste une expérience personnelle."

Pour le reste, je n'ai rien à redire sur ton raisonnement (excuse-moi si je te tutoie, mais en Italie, tout le monde se tutoie, de 7 à 77 ans :-)

Jean-Marie

P.S. Pour les apéros, la distance est quand même un peu longue, mais les différents billets sur la question ne m'ont pas échappés, j'y reviendrai avec un billet dédié. Pour l'instant, je suis trop plongé dans Facebook !

Anonyme a dit…

Bonjour et merci pour ce billet intéressant. Juste un petit détail, le lien vers le dossier sur PageRank n'est plus valide. Il peut être téléchargé à cette adresse : http://blog.aysoon.com/share/Dossier%20Complet%20-%20PageRank.pdf

Farhi Zakaria a dit…

Article intéressant http://www.blogarchive.info
j'aime bien des truc de référencement dans ces moteur merci bien