mercredi 8 octobre 2008

Linkscape : SEOmoz indexe le Web

Linkscape : SEOmoz indexe le Web !

Voici donc un nouvel acteur qui se propose d'indexer le Web. L'un jette l'éponge, les facteurs de risque l'ayant emporté sur les chances de réussite, un autre relève le défi. Avec une stratégie différente de GYM, Ask & Co. Une stratégie nouvelle. Intelligente, à mon avis. Et un modèle payant, contre l'obtention d'infos à valeur ajoutée.

Ce nouvel index du Web, qui crawle une trentaine de milliards de pages réactualisées chaque mois (fraîcheur de l'index, entre 10 et 50 jours, selon Randfish), se propose d'aider les référenceurs à en savoir plus sur l'essence du Web : les liens. En catégorisant, mesurant, ordonnant et rendant cherchables des listes de liens créées à la demande, selon différents critères choisis par l'utilisateur, pour valoriser ce minerai brut.

Les quelques statistiques fournies ont déjà été reprises par Sébastien, mais surtout, ce qui m'intéresse c'est l'approche initialement retenue au niveau des paramètres d'indexation :
  • préférer la quantité des domaines indexés plutôt que la profondeur d'indexation
  • se concentrer sur le cœur du réseau selon la fameuse théorie du nœud papillon
  • une taille d'index représentant entre 1/3 et 1/5 des ressources indexées par les principaux moteurs
  • une portion de résultats légèrement différents de ceux des autres moteurs, souvent victimes du cloaking
Or pour mieux comprendre cette "philosophie", arrêtons-nous un instant sur cette théorie du nœud papillon, plusieurs fois commentée sur Adscriptor. En reprenant les explications de ma série sur la mise en place de stratégies de liens (on s'y retrouve) :
L’importance des liens a été mise en exergue dans une recherche menée en 2000 par Altavista, Compaq et IBM, d’où il résulte que les sites peuvent être classifiés de la façon suivante :

* le cœur du réseau : environ 30% des sites les plus interconnectés qui se partagent et où convergent un maximum de liens et de trafic ;
* les sites d’origine : environ 20% des sites d’où les internautes sont dirigés vers le cœur du réseau, avec très peu de liens qui pointent en sens inverse ;
* les sites de destination : environ 20% de pages accessibles depuis le cœur mais n’y renvoyant que très peu ;
* les sites déconnectés : environ 30% d’îlots épars n’ayant que peu de liens et générant peu de trafic.

La topographie d’Internet qui s’en dégage a été dénommée la Théorie du nœud papillon :
INTERNET ET LA THÉORIE DU NŒUD PAPILLON


Source : Altavista, Compaq et IBM, 2000
Image © www.linkingmatters.com, 2003

Pour donner un élément de comparaison, l'étude Graph structure in the web, publiée par AltaVista, IBM et Compaq en mai 2000, analysait 200 millions de pages et 1,5 milliard de liens, alors que le graphe des liens selon Linkscape étudie l'architecture de 30 milliards de pages/sites et 200 milliards de liens. Soit, en huit ans, des facteurs respectifs de 150 et 133 !

Donc, ce que nous dit cette approche, c'est que pour l'instant l'indexation va se concentrer en général sur 70% des pages/sites Web (hormis les ressources déconnectées), mais surtout, plus particulièrement sur le cœur du réseau, outre favoriser le nombre plutôt que la profondeur des domaines indexés.

Exemple : si vous prenez le domaine de premier niveau gouv.fr, il est probablement composé de centaines de milliers de pages. Une indexation en profondeur supposerait d'indexer toutes ces pages. Ce que fera Google, à la limite, mais pas Linkscape, qui se contentera vraisemblablement d'indexer l'essentiel, selon des critères propres à l'algorithme.

Ce compromis quali-quantitatif permet cependant à Rand Fishkin d'affirmer que son outil ne passe pas à côté des principales ressources :
it appears that nearly universally, the SEOmoz index contains the more important, well-linked-to pages and sites, so the missing portions in a comparison are unlikely to be popular, valuable resources.
L'important c'est de presser le "link juice" ou, pour mieux dire, en reprenant la terminologie des métriques utilisées par Linkscape, le "domain juice".

De plus, l'outil vous propose non seulement l'analyse quantitative des liens, mais aussi de la distribution de leurs ancres et de leurs attributs (nofollow, Image Link, Same IP Address, Meta NoIndex, Noscript Tag, redirections 301 / 302, etc.). Exemples :


En s'inspirant du lancement de Chrome, une BD est disponible ici.

Des améliorations devraient prochainement être apportées, dont une toolbar livrable avant la fin de l'année, et un projet lié dès le premier trimestre 2009.


Voir également les premières remontées des utilisateurs, c'est instructif.

Voici donc une initiative ambitieuse, innovante, derrière laquelle transparaissent une longue réflexion, beaucoup de travail et une exécution remarquable, à laquelle je souhaite personnellement tous mes vœux de réussite. Bravo à Randfish et à toute l'équipe de SEOmoz !


SEOmoz Linkscape Education - Link Attributes from Scott Willoughby on Vimeo.

Liens connexes (en anglais) :


Partager sur Facebook

, , , , , ,

2 commentaires:

Unknown a dit…

à voir aussi :
https://www.majesticseo.com/ qui utilise les donnees de leur moteur de recherche, lui meme base sur un crawl réparti à la SETI ( voir http://www.majestic12.co.uk/)

Jean Thibaudeau a dit…

Très intéressant. J'ai aussi discuté de linkscape dans ce post:
http://www.adviso.ca/blog/2008/10/24/linkscape-de-seomoz-la-solution-definitive-a-lanalyse-de-liens-pour-le-seo/