lundi 3 décembre 2007

A comparison of Google's, Yahoo's, and Microsoft's index

A comparison of Google's, Yahoo's, and Microsoft's index

The same on WebGuild Silicon Valley
French version / Version française


Introduction
Index size
Google’s index
Yahoo!’s index
Microsoft’s index
Index caching and refreshing
Conclusion

[Update – October 5, 2007] Five days after posting this article (in French), 118 pages of the site are indexed on Google, which wins across the board for exhaustiveness, relevance and speed. Without contest!


Yahoo! and Microsoft are still at the same point…and the others are worse: it’s unknown on Ask, and Exalead shows a thumbnail of a parking service for my site, which was parked over a year ago. Hello, relevance (it’s l'exception française)!

* * *

Introduction

A few days ago I uploaded XBRL.name, a glossary in 7 languages on IFRS terminology.

For one, I was surprised to see that the domain name, which has existed on the site Studio92.net for over two years, had retained the PR4 of the page it was on, but that wouldn’t last!


At the same time, you can imagine how avidly I’m on the lookout to see when my site will be indexed in the search engines. I check every day on GYM. The results are edifying! Here is the status as of October 1, after the site was uploaded on September 23, in other words in eight days.

I should specify that it’s not completed; only 1/7 of the site is finished, a little less than 200 pages out of approximately 1400 expected when the site is complete.

Finally, this post has no pretension to being more than it is: the simple tracking of a week of the indexing of a new site. Nothing scientific here, just a personal experience. [Top]

* * *

Index size

It goes without saying that each of the three index generously exceeds 20 billion web pages!!! If you’re nostalgic, click here...

The engines don’t communicate much on the topic, except Microsoft, which makes a point to let you know it has caught up, quadrupling the size of its index from 5 billion to 20 billion pages. OK!

However, Yahoo! was already declaring more than 19 billion pages in… August 2005 (despite Jean Véronis’s questioning) and Google, 24 billion pages three months later (see here, end of page 5)!

So while I partially agree with Eric Enge when he states that At some level, the exact index size is not a big issue, unless, your index is simply too small, I agree less with his idea that increased index size is related to increased relevance (In short, Microsoft needed to make a move of this type to improve their relevance).

Relevance is not necessarily dependent on coverage (What's at issue is coverage... and if you don't have the related sites in the index, you can't return the right result), since the engine may very well have the relevant site in its index and still keep quiet (not list a result).

And of course, Microsoft presented a demo to illustrate its point of view, specifically on "shelli segal" and the site of a corresponding designer, which appears first on Live Search but makes the grave error of being absent in Google’s index!

Might one suspect Microsoft of cooking up an ad hoc search just to justify its relevance, relevance, relevance?

A good way to find out is to test it with xbrl.name, where the three search engines are on equal footing against it, since it was uploaded eight days ago without being intentionally presented for indexing; I just put the link on my blog and on several other sites. [Top]

* * *

Google’s index

Until yesterday, Google returned 190 results total and gave the following excerpt for the site:
My SPIP site. Search. Home page. My SPIP site. Follow-up of the site's activity RSS 2.0 | Site Map | Private area | SPIP | template.
That is, it had saved the SPIP installation I tested, before opting for a site in HTML.


But today – sigh of relief – Google returns 300 results and finally sees the new version of the site:


Conclusion: Google took note of the site in 8 days, although the content of the glossary does not yet seem to be indexed. [Top]

* * *

Yahoo!’s index

Yahoo! returns 30 results and the following excerpt:
This is the placeholder for domain xbrl.name. If you see this page after uploading site content ... This page has been automatically generated by Plesk.


Plus one page correctly indexed. What about the 200-some others?


So Yahoo! presents a tenth as many results as Google and just one page indexed. [Top]

* * *

Microsoft’s index

Just one result! Period. Same excerpt as Yahoo.


Then that last line that kills me: “Are you satisfied with Live Search? Tell us."

What to say? That in light of what preceded it, Microsoft definitely deserves its third place. Dead last!

The ranking is confirmed by my blog’s visit stats, as you can see in the table below:

stats Adscriptor septembre 2007
Search engines were the source of 2,826 visits on Adscriptor during September and represented 41.21% of total visits (188 visitors and 242 pages viewed per day, with an average time on site of 1'35'' per visit) (not everyone’s named Otto, fortunately for him ;-).

With 2,575 referring links, Google alone represents >91% of these visits, versus 5.4% from Yahoo! and three times less than Yahoo! for Microsoft. Google is overwhelming superior. Why?

Clearly, if Google weren’t there, I would have a presence on the Internet…with zero visibility on search engines! [Top]

* * *

Index caching and refreshing

In addition to size and relevance, one last aspect related to engine indices concerns their refreshing frequency, with a cache cycle that has shortened considerably recently for Google (I don’t use Yahoo! or Microsoft enough to say about them). Before, it seemed like the cache stayed around for a while and you could retrieve information several weeks later; now, it’s only a matter of days. For example, I was previously able to retrieve practically all of Alexis Debat’s fake interviews, but as the days go on, fewer and fewer can be found. [Top]

* * *

Conclusion

Concerning the performance Microsoft claims, Eric Enge is right when he says:
Ultimately, the point is, you can't return the right result if the site you should be returning for a given search is not in your index.
That’s clear. But it’s even worse to have the site in your index and not understand that the “right” site is precisely that one! [Top]


Share on Facebook

P.S. Well, it seems that Yahoo! and Microsoft are not giving up. They must have read my post overnight!

I tried Yahoo! Search again (it was recently improved, other details here); the tool still offers no suggestions:


but it has finally correctly indexed the home page. Everything else was the same: 31 results total and only 2 of the site’s pages.


On Live Search, too, the indexing is now correct for 2 of the site’s pages, which are the only results offered.


Meanwhile, Google has gone from 17 to 47 pages indexed: now several lengths ahead of the competition.

That said, given the number of web pages on the Internet (???), it’s pretty remarkable to see a new site indexed in eight days on GYM. And it makes sense why the next steps in searching in 2010 will be:
  1. search engine verticalization
  2. personalization of results
  3. universal search
Not to mention local search... [Top]

, , , , , , ,

Yahoo! les tendances de la recherche en 2007

Yahoo! les tendances de la recherche en 2007


Yahoo vient de publier les mots clés les plus recherchés en 2007, calculés sur des milliards de requêtes.

Mises à part les préoccupations géopolitiques qui se dégagent (Saddam Hussein, Iran, Iraq, Afghanistan), les grandes tendances sont dominées par les futures élections américaines (George W. Bush, Barack Obama, Hillary Clinton), l'économie (Oil and Gas prices), l'actualité (San Diego Fires), l'écologie (réchauffement global, Al Gore, pollution, énergies renouvelables), les célébrités (Britney Spears, Paris Hilton, Anna Nicole Smith, Owen Wilson), le sport (David Beckham, Serena Williams, Christiano Ronaldo, Super Bowl, Ronaldinho), etc.

Tout ça est très branché US, évidemment, mais j'en retiens les tendances technologiques (plus ou moins universelles sur le Web), tant au niveau des produits que des services :

1. YouTube
2. Wikipedia
3. Facebook
4. iTunes
5. iPod
6. iPhone
7. Nintendo Wii
8. Xbox
9. Sony PlayStation 3
10. Guitar Hero

1. Design
2. HDTV
3. Jeux
4. Musique
5. Web 2.0
6. Vidéo
7. Ubuntu
8. Voyages
9. Photographie
10. Mac

Sans oublier la disparition d'Harry Potter, le pauvre, que j'en suis encore tout retourné.


Partager sur Facebook

P.S. Incroyable, mais on ne retrouve presque aucun de ces termes parmi les 100 requêtes les plus populaires cette semaine chez ... Google. À croire que les internautes recherchent différemment selon le moteur qu'ils utilisent !

, , , , , ,

Zuckerberg perd une action en justice

Zuckerberg perd une action en justice

Kara Swhisher nous dévoile que Zuckerberg vient de perdre une action en référé intentée contre le magazine 01238, accusé d'avoir mis en ligne des "documents confidentiels" mentionnant noir sur blanc certains détails de Zuckerberg et famille.

C'est vraiment l'arroseur arrosé ! À l'heure où la bataille fait rage partout sur le Web et dans la blogosphère mondiale pour dénoncer les atteintes à la vie privée et le non-respect des données confidentielles de la part de la société de Zuckerberg, notamment avec les dérapages de Facebook Beacon (et en dépit des tentatives d'amélioration), le fait que Zuckerberg demande à un tribunal le retrait de certains documents au motif d'atteinte à sa vie privée - et soit débouté - ne manque pas de sel !

C'était la brève du jour. :-)


Partager sur Facebook

, , ,

dimanche 2 décembre 2007

Classement Wikio : Adscriptor dans le Top 50 des blogs francophones !

Classement Wikio : Adscriptor dans le Top 50 des blogs francophones !

Dans le classement Wikio des blogs francophones, introduit en mai 2007, Adscriptor a progressé en 8 mois de la 250e à la 33e place au classement général, et de la 96e à la 19e des blogs high-tech. Voici les différentes étapes telles que j'ai pu les reconstituer (les données devraient être exactes, sauf erreur involontaire de ma part) :


Donc attendez-vous à ce que ces positions régressent en 2008, essentiellement pour trois raisons :
  1. je ne saurais faire mieux que toutes les pointures qui me devancent ;
  2. je ne crois pas avoir énormément de temps à consacrer à mon blog dans l'année qui vient ;
  3. la course à l'audience et au meilleur classement n'ont jamais fait partie de mes motivations premières.
Ceci dit, j'essaierai quand même de l'alimenter le plus souvent possible, car tenir ce blog m'oblige à rester dans un état de veille constante, un aspect primordial lorsqu'on veut essayer de comprendre ce qui se passe sur le Web et de ne pas être largué par les innovations - bonnes et moins bonnes - qui se succèdent au fil des semaines jours, vu la vitesse à laquelle évoluent les choses sur Internet.

Ce qui ne veut pas forcément dire, comme le pensent un peu légèrement certains, être un "paparazzi du web" uniquement motivé par son ego ou par la chasse à la dernière exclu. Si tels étaient mes objectifs, il y a longtemps que j'aurais mis la clé sous la porte.

Tout comme ce blog n’est ni ma raison d’être ni ma réputation : c'est certes un élément qui s'inscrit dans le cadre plus complet - et complexe - de ce qu'il est convenu d'appeler mon identité numérique, de plus en plus inévitable aujourd'hui, mais ça s'arrête là.

Enfin, je ne me revendique d'aucune autorité suprême autre que ma conscience, ni d'aucune “déontologie du blogeur” ou d'aucun “code de conduite” autres que mes propres recettes ; à savoir, sur mon blog, toujours garder une ligne éditoriale de rigueur dans l’analyse, d’approfondissement, et, surtout, d’honnêteté intellectuelle.

Par conséquent, s'il m'arrive parfois de pousser un coup de gueule pour inviter l'un à ne plus pomper comme un malade ou l'autre à citer ses sources, je ne fais que demander aux autres ce que je m’applique à moi-même, et surtout, je ne vois pas en quoi cela autorise quiconque à m'enjoindre de justifier mon comportement vis-à-vis de tel ou tel.

Franchement, j'en ai rien à foutre. Qu'on se le dise. La seule chose que je revendique, haut et fort, c'est un concept simple : mon blog c’est chez moi, et chez moi je dis ce que je veux, que ça plaise ou pas. Et j'accueille qui je veux, sans a priori, avec la plus grande hospitalité, sauf les indésirables, comme je l'écrivais dans le tout premier billet que j'ai publié sur Internet, le 16 février 2005 :
Tous les commentaires fâcheux, virés, censurés, à la trappe ! C'est moi qui décide et ma décision est sans appel.

Je veux qu'on m'aime ! Tu m'aimes pas, va voir ailleurs. On peut pas plaire à tout le monde, mais si je te plais pas, sache que c'est réciproque !...

Par contre je dis bienvenue aux critiques constructives. Aimer quelqu'un ça n'a jamais voulu dire qu'on doive toujours être d'accord sur tout, au contraire.
Donc d'accord pour la contradiction, pas d'accord pour les procès ni les jugements d'intention. Et que les trolls passent leur chemin. C'est valable depuis le début, ce le sera aussi en 2008 et au-delà.


Partager sur Facebook

, , , , , ,

vendredi 30 novembre 2007

Facebook : 60 millions $ de plus investis

Facebook : 60 millions $ de plus...

(À lire également sur Facebook : les deux actions en référé intentées par Zuckerberg contre 02138...)

60 millions de dollars investis par Li Ka-shing, PDG de Hutchison Whampoa, qui vont s'ajouter à la prise de participation de Microsoft le mois dernier, sans oublier les précédentes levées de fonds...


Pour un financement total cumulé de 338,2 millions $ depuis la création de la société.

À quand la cotation de Facebook au QNET ?...

Source : Kara Swisher, qui ajoute qu'un autre investisseur potentiel, Providence Equity Partners, a préféré se retirer car son implication dans la société de Mark Zuckerberg, par ailleurs jugée trop onéreuse, ne se serait accompagnée d'aucun siège au conseil d'administration, chose que ni Microsoft ni Li Ka-shing n'ont réussi à obtenir non plus.

Kara laisse également entrevoir l'éventualité d'un partenariat entre Facebook et Tom.com en Chine, où Zuckerberg a déjà fait comprendre qu'il souhaitait investir...

Reconnaissons-lui au moins que la valeur n'attend pas le nombre des années...


Partager sur Facebook

, ,

Le nouvel index Internet du Nasdaq

Le nouvel index Internet du Nasdaq

Probablement l'un des signes les plus évidents que l'Internet n'est plus considéré comme une bulle (bien que certains pensent le contraire) : il y a deux jours le Nasdaq a lancé un index Internet uniquement dédié aux principaux "pure players" du Web, puisque des sociétés comme Microsoft et News Corp. (respectivement propriétaires de MSN/Live et MySpace) n'en font pas partie. Read Write Web s'interroge d'ailleurs sur le bien-fondé de ce choix.

L'indice compte pour l'instant 93 sociétés, pas toutes américaines puisqu'il intègre également des acteurs tels que Baidu ou Sohu.

Voici la liste des sociétés qui composent le Nasdaq:QNET et les symboles correspondants :

- 1-800 FLOWERS.COM, Inc. (FLWS)
- Akamai Technologies, Inc. (AKAM)
- Amazon.com, Inc. (AMZN)
- Ariba, Inc. (ARBA)
- Art Technology Group, Inc. (ARTG)
- AsiaInfo Holdings, Inc. (ASIA)
- Audible, Inc. (ADBL)
- Baidu.com, Inc. (BIDU)
- Bankrate Inc (RATE)
- BIDZ.COM, INC. (BIDZ)
- Blue Nile, Inc. (NILE)
- China Finance Online Co. Limited (JRJC)
- China Fire & Security Group, Inc. (CFSG)
- Chordiant Software, Inc. (CHRD)
- Clearwire Corporation (CLWR)
- CNET Networks, Inc. (CNET)
- Cogent Communications Group, Inc. (CCOI)
- comScore, Inc. (SCOR)
- CryptoLogic Limited (CRYP)
- CyberSource Corporation (CYBS)
- DealerTrack Holdings, Inc. (TRAK)
- Digital River, Inc. (DRIV)
- DivX, Inc. (DIVX)
- drugstore.com, inc. (DSCM)
- EarthLink, Inc. (ELNK)
- eBay Inc. (EBAY)
- Equinix, Inc. (EQIX)
- Expedia, Inc. (EXPE)
- FTD Group, Inc. (FTD)
- GigaMedia Limited (GIGM)
- Global Sources Ltd. (GSOL)
- Gmarket Inc. (GMKT)
- Google Inc. (GOOG)
- Greenfield Online, Inc. (SRVY)
- GSI Commerce, Inc. (GSIC)
- IAC/InterActiveCorp (IACI)
- iBasis, Inc. (IBAS)
- IMERGENT INC (IIG)
- InfoSpace, Inc. (INSP)
- Internap Network Services Corporation (INAP)
- Internet Capital Group, Inc. (ICGE)
- Internet Gold Golden Lines Ltd. (IGLD)
- Interwoven, Inc. (IWOV)
- iPass Inc. (IPAS)
- j2 Global Communications Inc (JCOM)
- Jupitermedia Corporation (JUPM)
- Keynote Systems, Inc. (KEYN)
- Knot, Inc. (The) (KNOT)
- Limelight Networks, Inc. (LLNW)
- Liquidity Services, Inc. (LQDT)
- LivePerson, Inc. (LPSN)
- LoopNet, Inc. (LOOP)
- Marchex, Inc. (MCHX)
- NaviSite, Inc. (NAVI)
- Netease.com, Inc. (NTES)
- Netflix, Inc. (NFLX)
- NIC Inc. (EGOV)
- NutriSystem Inc (NTRI)
- Omniture, Inc. (OMTR)
- Online Resources Corporation (ORCC)
- Open Text Corporation (OTEX)
- Openwave Systems Inc (OPWV)
- Overstock.com, Inc. (OSTK)
- Perficient, Inc. (PRFT)
- PetMed Express, Inc. (PETS)
- Priceline.com Incorporated (PCLN)
- RADVision Ltd. (RVSN)
- RealNetworks, Inc. (RNWK)
- S1 Corporation (SONE)
- SAVVIS, Inc. (SVVS)
- Shutterfly, Inc. (SFLY)
- Sify Technologies Limited (SIFY)
- Sina Corporation (SINA)
- SkillSoft plc (SKIL)
- Sohu.com Inc. (SOHU)
- SonicWALL, Inc. (SNWL)
- Stamps.com Inc. (STMP)
- SupportSoft Inc. (SPRT)
- Switch & Data Facilities Company, Inc. (SDXC)
- Terremark Worldwide, Inc. (TMRK)
- TheStreet.com, Inc. (TSCM)
- Travelzoo Inc (TZOO)
- U.S. Auto Parts Network, Inc. (PRTS)
- United Online, Inc. (UNTD)
- ValueClick, Inc. (VCLK)
- VeriSign, Inc. (VRSN)
- Vignette Corporation (VIGN)
- VistaPrint Limited (VPRT)
- Visual Sciences, Inc. (VSCN)
- Vocus, Inc. (VOCS)
- WebMD Health Corp (WBMD)
- Websense, Inc. (WBSN)
- Yahoo! Inc. (YHOO)

© Copyright 2007, The Nasdaq Stock Market, Inc. (All Rights Reserved). Via Trader Mike.

L'indice a déjà gagné 7 points depuis son lancement.


Comme le soulignait hier Data News :
Le Nasdaq Internet Index est un nouveau 'benchmark' destiné à tenir à jour les performances des entreprises internet, comme l'accès à internet, les moteurs de recherche, l'hébergement web, le développement de sites web et le commerce internet.
Je trouve cette liste intéressante, car si quelques sociétés sont de notoriété mondiale, personnellement je n'en connais pas la plupart.

Pour l'instant, celles et ceux qui veulent en savoir davantage peuvent aller sur Google Finance ou autre et saisir le symbole dans l'onglet de recherche.

J'essaierai donc d'approfondir au fil du temps en m'informant sur les entreprises que j'ignore, et si possible en vous faisant partager mes découvertes...


Partager sur Facebook

, , , ,

mercredi 28 novembre 2007

L'histoire de Facebook



[MàJ - 26 juin 2008] Nouvelle victoire de Facebook...

[MàJ - 25 juin 2008] À moins que...

[MàJ - 8 avril 2008] Conclusion probable...

[MàJ - 30 novembre 2007] Je viens d'apprendre (via Nick O'Neill) que Facebook a entrepris deux actions en référé contre 02138 pour obtenir qu'ils retirent du Web différents documents (dont des témoignages de Zuckerberg et des frères Winklevoss), sur lesquels s'appuie l'article dont je parle ci-après. L'affaire est détaillée dans le Wall Street Journal...

* * *

Sur le Web, tout le monde ou presque a déjà entendu parler, plus ou moins vaguement, du procès qui oppose ConnectU et Facebook. Or j'ai découvert hier soir, grâce à Kara Swisher, le dossier très complet que consacre à cette histoire 02138, un magazine indépendant (qui n'est plus en ligne aujourd'hui mais dont j'ai conservé l'intégralité du dossier si ça intéresse quelqu'un), auquel étaient abonnés en majorité les élèves de l'Université de Harvard, sous la plume de Luke O’Brien.

Toute l'affaire est décortiquée de A à Z, et on ne peut pas dire que Zuckerberg en sorte grandi...


Le dossier s'intitule Poking Facebook, difficile d'interpréter "poke" dans ce sens, mais sûrement pas draguer. Je dirais plutôt donner une tape sur l'épaule, quant à savoir si elle est amicale, c'est autre chose !

Car vu la teneur de l'article, d'après moi les frères Winklevoss et Divya Narendra, à l'origine de ConnectU, auraient plutôt l'envie de lui foutre leur poing sur la gueule, et compte tenu des carrures respectives des jumeaux et de Zuckerberg, y aurait pas photo à l'arrivée...

L'histoire retrace dans le détail les mois qui ont précédé le 4 février 2004, jour où Zuckerberg a annoncé le lancement de Facebook, et le déroulement des faits est pour le moins troublant.

Car comme conclut l'article, il est clair que Zuckerberg a capitalisé sur la bonne idée au bon moment. Reste à savoir de qui était l'idée ?
It’s safe to say that Zuckerberg capitalized on the right idea at the right time. The question remains: Whose idea was it?
Tout cela donne raison à Loïc Le Meur : « ce n'est pas vraiment l’idée qui compte, mais son exécution ! »

Zuckerberg a su mener à terme l'exécution de façon brillante, même si apparemment l'idée originale ne lui revient pas. Plusieurs procès sont en cours, et il est vraisemblable que ça pourrait se terminer par un maxi-dédommagement dont les américains ont le secret.

Ceci dit, en bon opportuniste, il faut lui reconnaître d'avoir eu la capacité de faire en trois ans ce qu'est Facebook aujourd'hui. Quant à l'honnêteté, entre cette qualité de moins en moins pratiquée de nos jours et 15 milliards $ sur la balance, d'après vous de quel côté penchera le plateau ?


Partager sur Facebook

P.S. Hier soir j'ai écrit au journal pour leur demander l'autorisation de traduire l'article, sans réponse pour l'instant.

, , ,