Une comparaison de l'index des moteurs de Google, Yahoo, Microsoft[
Mise à jour, 1er février 2008]
Microsoft rachète Yahoo!, ce billet devra bientôt être rangé au rayon archéologie du Web...
English version / Version anglaiseIntroductionLa taille des indexL'index de GoogleL'index de YahooL'index de MicrosoftLe cache et le rafraîchissement des indexConclusion[
MàJ - 5 octobre 2007] 5 jours après la publication de ce billet,
118 pages du site sont indexées sur Google, qui gagne sur toute la ligne :
exhaustivité, pertinence, rapidité. Sans appel !

Yahoo et Microsoft en sont toujours au même point... Et ne parlons pas des autres : inconnu chez Ask, tandis qu'Exalead présente la vignette d'un service de parking pour mon site, mis en parking il y a plus d'un an. Bonjour la pertinence (c'est l'exception française) !
* * *
IntroductionVoici quelques jours, j'ai mis en ligne
XBRL.name, un glossaire en 7 langues sur la
terminologie IFRS.
D'une part, j'ai eu la surprise de voir que le nom de domaine, déjà présent sur le site
Studio92.net depuis plus de deux ans, avait conservé le PR4 de la page qui l'accueillait, mais ça ne devrait pas durer !

De l'autre, vous pouvez imaginer combien je suis à l'affût pour voir quand est-ce que mon site sera indexé dans les moteurs. Je contrôle tous les jours sur
GYM.
Les résultats sont édifiants ! Voici la situation au 1
er octobre, le site ayant été mis en ligne le 23 septembre, soit en huit jours.
Je précise qu'il n'est pas terminé, seul 1/7 du site est complété, soit un peu moins de 200 pages sur environ 1400 prévues une fois le site achevé.
Enfin, ce billet ne prétend nullement à plus que ce qu'il est : le simple suivi sur une semaine de l'indexation d'un nouveau site. Rien de scientifique là-dedans, juste une expérience personnelle.
[Début]* * *
La taille des indexIl est acquis que chacun des trois
index dépasse amplement les
20 milliards de pages Web !!! Pour les nostalgiques, voir
ici...
Les moteurs ne communiquent plus trop là-dessus, sauf Microsoft qui tient à faire savoir qu'il a
comblé son retard, en multipliant par 4 la taille de son index : de 5 milliards à 20 milliards de pages. OK !
Pourtant, Yahoo annonçait déjà plus de
19 milliards de pages en ...
août 2005 (malgré les interrogations de
Jean Véronis), et Google
24 milliards de pages 3 mois plus tard (voir
ici, fin de page 5) !
Donc même si je suis en partie d'accord avec
Eric Enge quand il déclare que la différence entre 20 et 24 milliards de pages n'est pas significative, alors qu'elle compte beaucoup entre 5 et 24 milliards (
At some level, the exact index size is not a big issue, unless, your index is simply too small), je le suis moins lorsqu'il pense que l'augmentation de la taille de l'index est corrélée à l'augmentation de la pertinence (
In short, Microsoft needed to make a move of this type to improve their relevance).
La pertinence ne dépend pas forcément de la couverture (
What's at issue is coverage... and if you don't have the related sites in the index, you can't return the right result), puisque le moteur peut très bien avoir le site pertinent dans son inventaire et rester silencieux (c'est-à-dire ne pas sortir le résultat).
Et bien évidemment, Microsoft a présenté une démo pour illustrer son point de vue, notamment sur "
shelli segal" et le site d'un
designer correspondant, qui apparaît en premier sur Live Search mais a le grand tort d'être absent de l'index de Google !
Pourrait-on soupçonner Microsoft d'avoir concocté une recherche ad hoc uniquement pour mieux justifier sa
pertinence, pertinence, pertinence ?
Un bon moyen de le savoir est de tester avec
xbrl.name, face auquel
les trois moteurs sont à armes égales, puisqu'il a été mis en ligne il y a 8 jours sans être volontairement soumis à leur indexation, sinon en mettant le lien sur mon blog et dans quelques autres sites.
[Début]* * *
L'index de Google Jusqu'à hier Google retournait globalement 190 résultats et donnait pour le site l'extrait suivant :
My SPIP site. Search. Home page. My SPIP site. Follow-up of the site's activity RSS 2.0 | Site Map | Private area | SPIP | template.
C'est-à-dire qu'il gardait en mémoire l'installation de SPIP à laquelle j'ai procédé pour tester, avant d'opter pour un site en HTML.

Mais aujourd'hui, soupir de soulagement, Google retourne globalement 300 résultats et
voit enfin la nouvelle version du site :

Conclusion, sur Google, le site a été naturellement pris en compte en 8 jours, même si le contenu du glossaire ne semble
pas encore indexé.
[Début]* * *
L'index de Yahoo Yahoo retourne
30 résultats et l'extrait suivant :
This is the placeholder for domain xbrl.name. If you see this page after uploading site content ... This page has been automatically generated by Plesk.
Plus
une page correctement indexée. Quid des quelque 200 autres ?

Yahoo présente donc un dizième des résultats de Google et 1 seule page indexée.
[Début]* * *
L'index de MicrosoftUn seul résultat ! Point barre. Même extrait que Yahoo.

Plus la petite phrase qui tue : «
Live Search vous satisfait-il ? Dites-le nous. »
Que dire ? Qu'au vu de ce qui précède, Microsoft mérite bien sa troisième place. De bon dernier !
Un classement confirmé par les statistiques de fréquentation de mon blog, comme il ressort du tableau ci-dessous :

Les moteurs, à l'origine de 2 826 visites sur
Adscriptor au mois de septembre, ont représenté 41,21% de la fréquentation totale (188 visiteurs et 242 pages vues par jour, avec un temps de consultation moyen de 1'35'' par visite) (tout le monde ne s'appelle pas
Otto, heureusement pour lui ;-).
Or avec 2 575 liens référents,
Google représente à lui seul +91% de cette fréquentation, contre 5,4% pour Yahoo et 3 fois moins que Yahoo pour Microsoft. Une supériorité écrasante. Pourquoi ?
Enfin ! Il est certain que si Google n'était pas là, je serais présent sur Internet ... sans aucune visibilité dans les moteurs !
[Début]* * *
Le cache et le rafraîchissement des indexOutre la taille et la pertinence, un dernier aspect relatif à l'index des moteurs concerne sa fréquence de rafraîchissement, avec un cycle de cache qui s'est considérablement raccourci ces derniers temps pour Google (je n'utilise pas assez Yahoo et Microsoft pour pouvoir me prononcer sur ce point). Avant on avait l'impression que le cache restait assez longtemps et qu'on pouvait récupérer des infos plusieurs semaines après, alors qu'à présent ce n'est plus qu'une question de jours. Exemple : j'ai pu récupérer pratiquement toutes les interviews bidons d'
Alexis Debat, alors que plus les jours passent moins on en trouve trace.
[Début]* * *
ConclusionÀ propos des performances proclamées par
Microsoft,
Eric Enge a raison de déclarer :
Ultimately, the point is, you can't return the right result if the site you should be returning for a given search is not in your index.
En dernier lieu, le fait est que vous ne retournerez jamais le bon résultat si le site pertinent pour la requête correspondante n'est pas dans votre index.
C'est clair. Mais il est encore pire d'avoir ce site dans son index sans comprendre que le site pertinent, c'est justement celui-là !
[Début]P.S. Bon, et bien on dirait que
Yahoo et Microsoft n'abandonnent pas la partie. Ils ont dû lire mon billet pendant la nuit !
En cherchant sur
Yahoo Search,
récemment amélioré (voir les détails,
ici et
là), l'outil ne propose encore aucune suggestion :

mais a enfin indexé correctement la page d'accueil (rien de changé pour le reste, globalement 31 résultats et seulement 2 pages du site).

Pour
Live Search également, l'indexation est maintenant correcte pour 2 pages du site, qui sont les seuls résultats proposés.

Pendant ce temps,
Google est passé de 17 à
47 pages indexées : toujours une longueur d'avance, et même plusieurs...
Ceci dit, vu le
nombre de pages Web sur Internet (???), c'est quand même remarquable de voir qu'un nouveau site est indexé en 8 jours sur
GYM. Et on comprend mieux pourquoi les prochaines étapes de
la recherche à l'horizon 2010 seront :
- verticalisation des moteurs
- personnalisation des résultats
- recherche universelle
Sans oublier la
recherche locale...
Actualités,
GYM,
Google,
Yahoo,
Microsoft,
moteurs,
moteurs de recherche,
index,
pertinence,
Internet