Affichage des articles dont le libellé est index. Afficher tous les articles
Affichage des articles dont le libellé est index. Afficher tous les articles

mercredi 8 octobre 2008

Linkscape : SEOmoz indexe le Web

Linkscape : SEOmoz indexe le Web !

Voici donc un nouvel acteur qui se propose d'indexer le Web. L'un jette l'éponge, les facteurs de risque l'ayant emporté sur les chances de réussite, un autre relève le défi. Avec une stratégie différente de GYM, Ask & Co. Une stratégie nouvelle. Intelligente, à mon avis. Et un modèle payant, contre l'obtention d'infos à valeur ajoutée.

Ce nouvel index du Web, qui crawle une trentaine de milliards de pages réactualisées chaque mois (fraîcheur de l'index, entre 10 et 50 jours, selon Randfish), se propose d'aider les référenceurs à en savoir plus sur l'essence du Web : les liens. En catégorisant, mesurant, ordonnant et rendant cherchables des listes de liens créées à la demande, selon différents critères choisis par l'utilisateur, pour valoriser ce minerai brut.

Les quelques statistiques fournies ont déjà été reprises par Sébastien, mais surtout, ce qui m'intéresse c'est l'approche initialement retenue au niveau des paramètres d'indexation :
  • préférer la quantité des domaines indexés plutôt que la profondeur d'indexation
  • se concentrer sur le cœur du réseau selon la fameuse théorie du nœud papillon
  • une taille d'index représentant entre 1/3 et 1/5 des ressources indexées par les principaux moteurs
  • une portion de résultats légèrement différents de ceux des autres moteurs, souvent victimes du cloaking
Or pour mieux comprendre cette "philosophie", arrêtons-nous un instant sur cette théorie du nœud papillon, plusieurs fois commentée sur Adscriptor. En reprenant les explications de ma série sur la mise en place de stratégies de liens (on s'y retrouve) :
L’importance des liens a été mise en exergue dans une recherche menée en 2000 par Altavista, Compaq et IBM, d’où il résulte que les sites peuvent être classifiés de la façon suivante :

* le cœur du réseau : environ 30% des sites les plus interconnectés qui se partagent et où convergent un maximum de liens et de trafic ;
* les sites d’origine : environ 20% des sites d’où les internautes sont dirigés vers le cœur du réseau, avec très peu de liens qui pointent en sens inverse ;
* les sites de destination : environ 20% de pages accessibles depuis le cœur mais n’y renvoyant que très peu ;
* les sites déconnectés : environ 30% d’îlots épars n’ayant que peu de liens et générant peu de trafic.

La topographie d’Internet qui s’en dégage a été dénommée la Théorie du nœud papillon :
INTERNET ET LA THÉORIE DU NŒUD PAPILLON


Source : Altavista, Compaq et IBM, 2000
Image © www.linkingmatters.com, 2003

Pour donner un élément de comparaison, l'étude Graph structure in the web, publiée par AltaVista, IBM et Compaq en mai 2000, analysait 200 millions de pages et 1,5 milliard de liens, alors que le graphe des liens selon Linkscape étudie l'architecture de 30 milliards de pages/sites et 200 milliards de liens. Soit, en huit ans, des facteurs respectifs de 150 et 133 !

Donc, ce que nous dit cette approche, c'est que pour l'instant l'indexation va se concentrer en général sur 70% des pages/sites Web (hormis les ressources déconnectées), mais surtout, plus particulièrement sur le cœur du réseau, outre favoriser le nombre plutôt que la profondeur des domaines indexés.

Exemple : si vous prenez le domaine de premier niveau gouv.fr, il est probablement composé de centaines de milliers de pages. Une indexation en profondeur supposerait d'indexer toutes ces pages. Ce que fera Google, à la limite, mais pas Linkscape, qui se contentera vraisemblablement d'indexer l'essentiel, selon des critères propres à l'algorithme.

Ce compromis quali-quantitatif permet cependant à Rand Fishkin d'affirmer que son outil ne passe pas à côté des principales ressources :
it appears that nearly universally, the SEOmoz index contains the more important, well-linked-to pages and sites, so the missing portions in a comparison are unlikely to be popular, valuable resources.
L'important c'est de presser le "link juice" ou, pour mieux dire, en reprenant la terminologie des métriques utilisées par Linkscape, le "domain juice".

De plus, l'outil vous propose non seulement l'analyse quantitative des liens, mais aussi de la distribution de leurs ancres et de leurs attributs (nofollow, Image Link, Same IP Address, Meta NoIndex, Noscript Tag, redirections 301 / 302, etc.). Exemples :


En s'inspirant du lancement de Chrome, une BD est disponible ici.

Des améliorations devraient prochainement être apportées, dont une toolbar livrable avant la fin de l'année, et un projet lié dès le premier trimestre 2009.


Voir également les premières remontées des utilisateurs, c'est instructif.

Voici donc une initiative ambitieuse, innovante, derrière laquelle transparaissent une longue réflexion, beaucoup de travail et une exécution remarquable, à laquelle je souhaite personnellement tous mes vœux de réussite. Bravo à Randfish et à toute l'équipe de SEOmoz !


SEOmoz Linkscape Education - Link Attributes from Scott Willoughby on Vimeo.

Liens connexes (en anglais) :


Partager sur Facebook

, , , , , ,

vendredi 25 juillet 2008

L'index de Google : 1000 milliards de pages !

L'index de Google : 1000 milliards de pages !

C'est pas moi qui le dis !

Moi je dis juste : Google superlatif !

1000 milliards de pages ! Symbolique.

D'un autre côté, si on considérait dès 2001 que le Web profond (Deep Web) en contenait déjà 550 milliards, alors on se dit que Google a bien avancé, notamment au niveau de l'indexation des contenus dynamiques des bases de données ou des formulaires, mais n'est pas au bout de la tâche !

Car même si Google déclare :
We don't index every one of those trillion pages -- many of them are similar to each other, or represent auto-generated content similar to the calendar example that isn't very useful to searchers.
... pour savoir que les pages sont dupliquées, il faut déjà les avoir crawlées : « Ce graphe de 1000 milliards d'URL est semblable à une cartographie qui aurait 1000 milliards de nœuds » (This graph of one trillion URLs is similar to a map made up of one trillion intersections.) !!!

Et d'ajouter dans la foulée :
But we're proud to have the most comprehensive index of any search engine, and our goal always has been to index all the world's data.
Tout ça bien qu'il semble encore avoir quelques problèmes sur le Web profond, que ce soit délibéré ou non...


Partager sur Facebook

P.S. En outre, quand on pense à la techno derrière, on se dit que c'est pas demain la veille que le BrowseRank va rattraper le PageRank !

Même s'il y en a qui auraient besoin de plus que ça pour être impressionnés :
Here’s a trillion: 1,000,000,000,000

Here’s a googol: 10,000,000,000,000,000,000,
000,000,000,000,000,000,000,000,000,000,000,
000,000,000,000,000,000,000,000,000,000,000,
000,000,000,000,000.

When Google can google a googol URLs at once, then I’ll be impressed.
Excellent !

, , , , , ,

lundi 3 décembre 2007

A comparison of Google's, Yahoo's, and Microsoft's index

A comparison of Google's, Yahoo's, and Microsoft's index

The same on WebGuild Silicon Valley
French version / Version française


Introduction
Index size
Google’s index
Yahoo!’s index
Microsoft’s index
Index caching and refreshing
Conclusion

[Update – October 5, 2007] Five days after posting this article (in French), 118 pages of the site are indexed on Google, which wins across the board for exhaustiveness, relevance and speed. Without contest!


Yahoo! and Microsoft are still at the same point…and the others are worse: it’s unknown on Ask, and Exalead shows a thumbnail of a parking service for my site, which was parked over a year ago. Hello, relevance (it’s l'exception française)!

* * *

Introduction

A few days ago I uploaded XBRL.name, a glossary in 7 languages on IFRS terminology.

For one, I was surprised to see that the domain name, which has existed on the site Studio92.net for over two years, had retained the PR4 of the page it was on, but that wouldn’t last!


At the same time, you can imagine how avidly I’m on the lookout to see when my site will be indexed in the search engines. I check every day on GYM. The results are edifying! Here is the status as of October 1, after the site was uploaded on September 23, in other words in eight days.

I should specify that it’s not completed; only 1/7 of the site is finished, a little less than 200 pages out of approximately 1400 expected when the site is complete.

Finally, this post has no pretension to being more than it is: the simple tracking of a week of the indexing of a new site. Nothing scientific here, just a personal experience. [Top]

* * *

Index size

It goes without saying that each of the three index generously exceeds 20 billion web pages!!! If you’re nostalgic, click here...

The engines don’t communicate much on the topic, except Microsoft, which makes a point to let you know it has caught up, quadrupling the size of its index from 5 billion to 20 billion pages. OK!

However, Yahoo! was already declaring more than 19 billion pages in… August 2005 (despite Jean Véronis’s questioning) and Google, 24 billion pages three months later (see here, end of page 5)!

So while I partially agree with Eric Enge when he states that At some level, the exact index size is not a big issue, unless, your index is simply too small, I agree less with his idea that increased index size is related to increased relevance (In short, Microsoft needed to make a move of this type to improve their relevance).

Relevance is not necessarily dependent on coverage (What's at issue is coverage... and if you don't have the related sites in the index, you can't return the right result), since the engine may very well have the relevant site in its index and still keep quiet (not list a result).

And of course, Microsoft presented a demo to illustrate its point of view, specifically on "shelli segal" and the site of a corresponding designer, which appears first on Live Search but makes the grave error of being absent in Google’s index!

Might one suspect Microsoft of cooking up an ad hoc search just to justify its relevance, relevance, relevance?

A good way to find out is to test it with xbrl.name, where the three search engines are on equal footing against it, since it was uploaded eight days ago without being intentionally presented for indexing; I just put the link on my blog and on several other sites. [Top]

* * *

Google’s index

Until yesterday, Google returned 190 results total and gave the following excerpt for the site:
My SPIP site. Search. Home page. My SPIP site. Follow-up of the site's activity RSS 2.0 | Site Map | Private area | SPIP | template.
That is, it had saved the SPIP installation I tested, before opting for a site in HTML.


But today – sigh of relief – Google returns 300 results and finally sees the new version of the site:


Conclusion: Google took note of the site in 8 days, although the content of the glossary does not yet seem to be indexed. [Top]

* * *

Yahoo!’s index

Yahoo! returns 30 results and the following excerpt:
This is the placeholder for domain xbrl.name. If you see this page after uploading site content ... This page has been automatically generated by Plesk.


Plus one page correctly indexed. What about the 200-some others?


So Yahoo! presents a tenth as many results as Google and just one page indexed. [Top]

* * *

Microsoft’s index

Just one result! Period. Same excerpt as Yahoo.


Then that last line that kills me: “Are you satisfied with Live Search? Tell us."

What to say? That in light of what preceded it, Microsoft definitely deserves its third place. Dead last!

The ranking is confirmed by my blog’s visit stats, as you can see in the table below:

stats Adscriptor septembre 2007
Search engines were the source of 2,826 visits on Adscriptor during September and represented 41.21% of total visits (188 visitors and 242 pages viewed per day, with an average time on site of 1'35'' per visit) (not everyone’s named Otto, fortunately for him ;-).

With 2,575 referring links, Google alone represents >91% of these visits, versus 5.4% from Yahoo! and three times less than Yahoo! for Microsoft. Google is overwhelming superior. Why?

Clearly, if Google weren’t there, I would have a presence on the Internet…with zero visibility on search engines! [Top]

* * *

Index caching and refreshing

In addition to size and relevance, one last aspect related to engine indices concerns their refreshing frequency, with a cache cycle that has shortened considerably recently for Google (I don’t use Yahoo! or Microsoft enough to say about them). Before, it seemed like the cache stayed around for a while and you could retrieve information several weeks later; now, it’s only a matter of days. For example, I was previously able to retrieve practically all of Alexis Debat’s fake interviews, but as the days go on, fewer and fewer can be found. [Top]

* * *

Conclusion

Concerning the performance Microsoft claims, Eric Enge is right when he says:
Ultimately, the point is, you can't return the right result if the site you should be returning for a given search is not in your index.
That’s clear. But it’s even worse to have the site in your index and not understand that the “right” site is precisely that one! [Top]


Share on Facebook

P.S. Well, it seems that Yahoo! and Microsoft are not giving up. They must have read my post overnight!

I tried Yahoo! Search again (it was recently improved, other details here); the tool still offers no suggestions:


but it has finally correctly indexed the home page. Everything else was the same: 31 results total and only 2 of the site’s pages.


On Live Search, too, the indexing is now correct for 2 of the site’s pages, which are the only results offered.


Meanwhile, Google has gone from 17 to 47 pages indexed: now several lengths ahead of the competition.

That said, given the number of web pages on the Internet (???), it’s pretty remarkable to see a new site indexed in eight days on GYM. And it makes sense why the next steps in searching in 2010 will be:
  1. search engine verticalization
  2. personalization of results
  3. universal search
Not to mention local search... [Top]

, , , , , , ,

lundi 1 octobre 2007

Index Google, Yahoo, Microsoft : comparaison

Une comparaison de l'index des moteurs de Google, Yahoo, Microsoft

[Mise à jour, 1er février 2008] Microsoft rachète Yahoo!, ce billet devra bientôt être rangé au rayon archéologie du Web...

English version / Version anglaise

Introduction
La taille des index
L'index de Google
L'index de Yahoo
L'index de Microsoft
Le cache et le rafraîchissement des index
Conclusion

[MàJ - 5 octobre 2007] 5 jours après la publication de ce billet, 118 pages du site sont indexées sur Google, qui gagne sur toute la ligne : exhaustivité, pertinence, rapidité. Sans appel !


Yahoo et Microsoft en sont toujours au même point... Et ne parlons pas des autres : inconnu chez Ask, tandis qu'Exalead présente la vignette d'un service de parking pour mon site, mis en parking il y a plus d'un an. Bonjour la pertinence (c'est l'exception française) !

* * *

Introduction

Voici quelques jours, j'ai mis en ligne XBRL.name, un glossaire en 7 langues sur la terminologie IFRS.

D'une part, j'ai eu la surprise de voir que le nom de domaine, déjà présent sur le site Studio92.net depuis plus de deux ans, avait conservé le PR4 de la page qui l'accueillait, mais ça ne devrait pas durer !


De l'autre, vous pouvez imaginer combien je suis à l'affût pour voir quand est-ce que mon site sera indexé dans les moteurs. Je contrôle tous les jours sur GYM. Les résultats sont édifiants ! Voici la situation au 1er octobre, le site ayant été mis en ligne le 23 septembre, soit en huit jours.

Je précise qu'il n'est pas terminé, seul 1/7 du site est complété, soit un peu moins de 200 pages sur environ 1400 prévues une fois le site achevé.

Enfin, ce billet ne prétend nullement à plus que ce qu'il est : le simple suivi sur une semaine de l'indexation d'un nouveau site. Rien de scientifique là-dedans, juste une expérience personnelle. [Début]

* * *

La taille des index

Il est acquis que chacun des trois index dépasse amplement les 20 milliards de pages Web !!! Pour les nostalgiques, voir ici...

Les moteurs ne communiquent plus trop là-dessus, sauf Microsoft qui tient à faire savoir qu'il a comblé son retard, en multipliant par 4 la taille de son index : de 5 milliards à 20 milliards de pages. OK !

Pourtant, Yahoo annonçait déjà plus de 19 milliards de pages en ... août 2005 (malgré les interrogations de Jean Véronis), et Google 24 milliards de pages 3 mois plus tard (voir ici, fin de page 5) !

Donc même si je suis en partie d'accord avec Eric Enge quand il déclare que la différence entre 20 et 24 milliards de pages n'est pas significative, alors qu'elle compte beaucoup entre 5 et 24 milliards (At some level, the exact index size is not a big issue, unless, your index is simply too small), je le suis moins lorsqu'il pense que l'augmentation de la taille de l'index est corrélée à l'augmentation de la pertinence (In short, Microsoft needed to make a move of this type to improve their relevance).

La pertinence ne dépend pas forcément de la couverture (What's at issue is coverage... and if you don't have the related sites in the index, you can't return the right result), puisque le moteur peut très bien avoir le site pertinent dans son inventaire et rester silencieux (c'est-à-dire ne pas sortir le résultat).

Et bien évidemment, Microsoft a présenté une démo pour illustrer son point de vue, notamment sur "shelli segal" et le site d'un designer correspondant, qui apparaît en premier sur Live Search mais a le grand tort d'être absent de l'index de Google !

Pourrait-on soupçonner Microsoft d'avoir concocté une recherche ad hoc uniquement pour mieux justifier sa pertinence, pertinence, pertinence ?

Un bon moyen de le savoir est de tester avec xbrl.name, face auquel les trois moteurs sont à armes égales, puisqu'il a été mis en ligne il y a 8 jours sans être volontairement soumis à leur indexation, sinon en mettant le lien sur mon blog et dans quelques autres sites. [Début]

* * *

L'index de Google

Jusqu'à hier Google retournait globalement 190 résultats et donnait pour le site l'extrait suivant :
My SPIP site. Search. Home page. My SPIP site. Follow-up of the site's activity RSS 2.0 | Site Map | Private area | SPIP | template.
C'est-à-dire qu'il gardait en mémoire l'installation de SPIP à laquelle j'ai procédé pour tester, avant d'opter pour un site en HTML.


Mais aujourd'hui, soupir de soulagement, Google retourne globalement 300 résultats et voit enfin la nouvelle version du site :


Conclusion, sur Google, le site a été naturellement pris en compte en 8 jours, même si le contenu du glossaire ne semble pas encore indexé. [Début]

* * *

L'index de Yahoo

Yahoo retourne 30 résultats et l'extrait suivant :
This is the placeholder for domain xbrl.name. If you see this page after uploading site content ... This page has been automatically generated by Plesk.
Plus une page correctement indexée. Quid des quelque 200 autres ?

Yahoo présente donc un dizième des résultats de Google et 1 seule page indexée. [Début]

* * *

L'index de Microsoft

Un seul résultat ! Point barre. Même extrait que Yahoo.


Plus la petite phrase qui tue : « Live Search vous satisfait-il ? Dites-le nous. »

Que dire ? Qu'au vu de ce qui précède, Microsoft mérite bien sa troisième place. De bon dernier !

Un classement confirmé par les statistiques de fréquentation de mon blog, comme il ressort du tableau ci-dessous :

stats Adscriptor septembre 2007
Les moteurs, à l'origine de 2 826 visites sur Adscriptor au mois de septembre, ont représenté 41,21% de la fréquentation totale (188 visiteurs et 242 pages vues par jour, avec un temps de consultation moyen de 1'35'' par visite) (tout le monde ne s'appelle pas Otto, heureusement pour lui ;-).

Or avec 2 575 liens référents, Google représente à lui seul +91% de cette fréquentation, contre 5,4% pour Yahoo et 3 fois moins que Yahoo pour Microsoft. Une supériorité écrasante. Pourquoi ?

Enfin ! Il est certain que si Google n'était pas là, je serais présent sur Internet ... sans aucune visibilité dans les moteurs ! [Début]

* * *

Le cache et le rafraîchissement des index

Outre la taille et la pertinence, un dernier aspect relatif à l'index des moteurs concerne sa fréquence de rafraîchissement, avec un cycle de cache qui s'est considérablement raccourci ces derniers temps pour Google (je n'utilise pas assez Yahoo et Microsoft pour pouvoir me prononcer sur ce point). Avant on avait l'impression que le cache restait assez longtemps et qu'on pouvait récupérer des infos plusieurs semaines après, alors qu'à présent ce n'est plus qu'une question de jours. Exemple : j'ai pu récupérer pratiquement toutes les interviews bidons d'Alexis Debat, alors que plus les jours passent moins on en trouve trace. [Début]

* * *

Conclusion

À propos des performances proclamées par Microsoft, Eric Enge a raison de déclarer :
Ultimately, the point is, you can't return the right result if the site you should be returning for a given search is not in your index.

En dernier lieu, le fait est que vous ne retournerez jamais le bon résultat si le site pertinent pour la requête correspondante n'est pas dans votre index.
C'est clair. Mais il est encore pire d'avoir ce site dans son index sans comprendre que le site pertinent, c'est justement celui-là ! [Début]


P.S. Bon, et bien on dirait que Yahoo et Microsoft n'abandonnent pas la partie. Ils ont dû lire mon billet pendant la nuit !

En cherchant sur Yahoo Search, récemment amélioré (voir les détails, ici et ), l'outil ne propose encore aucune suggestion :


mais a enfin indexé correctement la page d'accueil (rien de changé pour le reste, globalement 31 résultats et seulement 2 pages du site).


Pour Live Search également, l'indexation est maintenant correcte pour 2 pages du site, qui sont les seuls résultats proposés.


Pendant ce temps, Google est passé de 17 à 47 pages indexées : toujours une longueur d'avance, et même plusieurs...

Ceci dit, vu le nombre de pages Web sur Internet (???), c'est quand même remarquable de voir qu'un nouveau site est indexé en 8 jours sur GYM. Et on comprend mieux pourquoi les prochaines étapes de la recherche à l'horizon 2010 seront :
  1. verticalisation des moteurs
  2. personnalisation des résultats
  3. recherche universelle
Sans oublier la recherche locale...

, , , , , , , , ,