Affichage des articles dont le libellé est Hadoop. Afficher tous les articles
Affichage des articles dont le libellé est Hadoop. Afficher tous les articles

vendredi 2 mai 2008

Le Web dans les nuages

Le Web dans les nuages

Pendant que les français, sûrs de leur bon droit, brident les énergies du Web à coup de procès et envisagent d'interdire purement et simplement aux "pirates" l'accès à Internet (qui devrait pourtant faire partie des droits inaliénables de tout citoyen, monsieur le petit père castrateur), les américains inventent l'avenir : le Web dans les nuages, ou Cloud computing.

Pendant que les français oublient que les inventeurs du Web, Tim Berners-Lee et Robert Cailliau, renoncèrent il y a 15 ans (1993) à percevoir des royalties sur leur "invention", offerte au domaine public (sans quoi le Web tel qu'on le connaît aujourd'hui n'existerait pas), les américains joignent leurs efforts pour conquérir ce qu'ils considèrent être le futur modèle dominant de l'ingénierie matérielle et logicielle du 21e siècle, le cloud computing, ou l'informatique distribuée via des grilles de calcul (grid computing) à l'échelle de la planète.

Déjà en 2007, Google et IBM renforçaient leur partenariat dans ce domaine, et une fusion Microsoft-Yahoo augmenterait considérablement ce qu'Hervé Le Crosnier appelle le vectorialisme, qui définit ainsi le cloud computing :
disposer d'une force de frappe informatique (réseau + serveurs + mémoire + logiciels "as a service") pour offrir des services aux particuliers (dépôts photo, logiciels de productivité,...) et les capter dans l'univers d'un des vecteurs. Attention, on n'est plus dans l'époque des "mainframes", le nombre d'usagers ne se limite pas à des "grappes de terminaux", mais se compte en millions...
Oublions un instant les éternels fiancés Microsoft (toujours extrêment actif dans les data centers) et Yahoo! (social, viral et convivial, très impliqué dans Hadoop...), mais rappelons que si Google disposait d'un parc autour du million de serveurs à l'été 2007, ses investissements dans de gigantesques centres de données ont fait un bond énorme au premier trimestre 2008, alors même qu'IBM vient s'installer en Europe !

Et les deux compères (qui ont un autre point commun de taille : leur rivalité avec Microsoft) n'hésitent plus à envisager la réalisation conjointe d'un "réseau mondial de serveurs" :
IBM and Google plan to exploit their common technological world view and considerable talent to build a worldwide network, or cloud, of servers from which consumers and businesses will tap everything from online soccer schedules to advanced engineering applications.
Nous sommes loin du parc de 400 serveurs, éventuellement extensible à 4000, annoncé l'année dernière...

Tout cela présage donc une nouvelle révolution dans de nombreux domaines : SaaS, HaaS, stockage en ligne des données (et vu les volumes attendus...), télécommunications, Internet des choses, etc.

Juste pour donner un exemple de la puissance du grid computing, voici quelques infos sur la grille de calcul du CERN (voir plus haut) implémentée dans le cadre du projet WLCG (Worldwide LHC Computing Grid, cf. ici pour le Grand Collisionneur de Hadrons), nécessaire pour traiter un volume de 15 Pétaoctets de nouvelles données chaque année : Le catalogue entier des Rolling Stones transféré d'Angleterre au Japon en moins de 2 secondes ! Top chrono...


* * *

Et pendant ce temps, les français continuent de penser qu'on n'a pas encore fait mieux que le droit romain pour réglementer Internet, ce putain d'espace de non-droit.

Pensez, Mesdames et Messieurs, pensez. Après tout n'est-ce pas Descartes qui affirme : "Je pense donc je suis". Si ça peut vous donner l'illusion d'être ! Mais n'oubliez pas que pendant que vous pensez, d'autres agissent...

Permettez-moi de vous dédier ce fabliau (en espérant qu'il sera libre de droits...) :
Les français et les américains

Les français, ayant pensé
Toute leur vie,
Se trouvèrent fort dépourvus
Quand la Web économie fut venue :
Pas un seul petit morceau
De mouche ou de vermisseau.
Ils allèrent crier à l'aide
Chez les américains leurs voisins,
Les priant de leur prêter
Quelque grain pour subsister
Jusqu'à la prochaine reprise.
"Nous vous paierons, leur dirent-il,
Avant l'août, foi d'animaux,
Intérêt et principal."
Les américains ne sont pas prêteurs :
C'est là leur moindre défaut.
Que faisiez-vous au temps chaud ?
Dirent-ils à ces emprunteurs.
- Nuit et jour à tout venant
Nous pensions, ne vous déplaise.
- Vous pensiez ? nous en sommes fort aises.
Eh bien! dansez maintenant.
Fermeture d'esprit : 0 - Pragmatisme : 1

C'est pas marrant, je sais, mais ça soulage.


Partager sur Facebook

, , , , , , , , ,

vendredi 22 février 2008

Yahoo! vs. Google

Flashback

En 1995, Microsoft loupe un tournant historique, ce dont il ne se remettra pas jusqu'à aujourd'hui.

En 1996, année de ma première connexion à Internet, le portail Yahoo! utilisait AltaVista comme moteur de recherche.

À cette époque, Google n'existait pas encore, si ce n'est dans la tête de Larry Page et Sergey Brin.

De 1998 à 2000, Yahoo! préféra remplacer Altavista par la technologie de recherche Inktomi.

De 2000 à 2002, Yahoo! remplaça Inktomi par Google, avant de consommer le divorce en mars 2003 car l'irrésistible ascension de Google commençait à lui faire de l'ombre.

L'acquisition d'Inktomi en décembre 2002 faisait d'ailleurs suite au refus d'un rachat de Google, pour lequel Yahoo! aurait proposé 3 milliards de dollars durant l'été 2002, alors que Page & Brin évaluaient leur moteur au moins à 5 milliards $ !

Mais Terry Semel avait un autre plan, être indépendant sur la recherche avec la technologie Inktomi et lancer la pub contextuelle après l'acquisition d'Overture en 2002 (ex GoTo.com, créé par Bill Gross en 1998 ; fin 2001, les internautes avaient déjà cliqué 1,4 milliard de fois sur les pubs Overture).

En 2002, les recettes d'Overture étaient le double de celles de Google ; deux ans plus tard, les recettes de Google représentaient plus de 2,5 fois celles d'Overture... (source : Eric Jackson)

De mars 2003 (date du "divorce" Yahoo!-Google) à aujourd'hui, cinq ans ont passé, cinq ans seulement. Durant lesquels Google, qui valait au départ bien moins que Yahoo!, a tellement multiplié sa valeur qu'il pèse maintenant plus de 4 fois celle de Yahoo!

Explication et conclusion

Durant la décennie 1998-2008, Yahoo! a eu TOUTES les opportunités de devenir le numéro 1 sur Internet et les a TOUTES dilapidées.

Par manque d'audace. Par manque de clairvoyance. Par manque de leadership, de vision, etc. Et probablement en amont par l'absence d'une "mission" clairement définie, au travers de laquelle Yahoo! aurait pu devenir reconnaissable, identifiable, non seulement en interne, vis-à-vis de ses propres effectifs, mais surtout vers l'extérieur, vis-à-vis des internautes en général.

A contrario, Google, à qui TOUT a réussi jusqu'à présent, a su se focaliser dès le début et fédérer ses troupes autour d'UNE mission, dont la ligne directrice ne varie pas d'un pouce, ou lorsqu'elle s'étend, puisqu'il y a longtemps qu'on sait que Google est bien plus qu'un « simple » moteur de recherche, ça reste toujours concentré sur le cœur de mission.

Une différence fondamentale qui explique probablement qu'au fil des ans la débandade de Yahoo! a fini par être inversement proportionnelle à la réussite de Google.

Avec à l'origine chez Yahoo! deux étudiants de Standford, Jerry Yang et David Filo, qui n'ont jamais su s'entourer, ou mal ; et chez Google, deux étudiants de Standford, Larry Page et Sergey Brin, qui ont su trouver la bonne personne au bon moment.

Ceci explique cela. (Zuckerberg n'a plus qu'à en tirer les leçons qui s'imposent...)

Beaucoup d'erreurs à mettre au compte de Yahoo! donc, qu'on ne peut certes pas toutes attribuer au hasard ou à la malchance. Des acquisitions en pagaille sans qu'on comprenne trop le pourquoi du comment, d'où une duplication inutile et coûteuse des produits. En somme, toute une série de maux parfaitement connus en interne :
  • Nous devons d'abord reconnaître nos problèmes
  • Nous manquons de clarté, aucune vision
  • Nous manquons de décision et de réactivité
  • Nos services sont fortement redondants :
    • YME vs. Musicmatch
    • Flickr vs. Photos
    • YMG video vs. Search video
    • Deli.cio.us vs. myweb
    • Messenger & plug-ins vs. Sidebar & widgets
    • Social media vs. 360 & Groups
    • Front page vs. YMG
    • Global strategy from BU vs. Global strategy from International
  • Nous avons perdu notre volonté de gagner...
Source : Brad Garlinghouse (Peanut Butter Manifesto)

Et les tergiversations de Jerry Yang remplaçant Terry Semel me font davantage penser à l'agitation d'un étudiant en mal de reconnaissance, plutôt qu'à l'orientation stratégique clairvoyante d'un chef d'entreprise.

Le seul vrai succès que je reconnaisse à Yahoo, c'est son implication dans le monde de l'open source et, surtout, d'avoir été décisif pour contribuer, enfin, à sortir de l'ombre le projet Hadoop, à mon avis la seule carte à jouer pour espérer un jour concurrencer - voire dépasser - Google sur le search. La pertinence des résultats étant la clé qui ouvre toutes les portes sur Internet.

Dommage que ce soit trop tard ! Pas trop tard pour Hadoop - je parie même que Microsoft va foutre son MSN à la poubelle pour injecter ses milliards dans Hadoop (ce qui serait quand même le monde à l'envers...) -, mais trop tard pour Yahoo!

Il faut dire aussi que depuis plus de 10 ans qu'ils errent dans la recherche, ils auraient peut-être pu - et dû - y penser avant !

So long Yahoo! À moins que Microsoft ne décide de te donner une nouvelle jeunesse et finisse un jour par nous convaincre - sait-on jamais !? - que la seule alternative possible à Google est l'émergence d'un Yahoo 2.0!

Même si personnellement, mon analyse est qu'il vaudrait mieux tout refondre dans une nouvelle entité, car si l'on a déjà maintes redondances au sein de Yahoo!, avec une - encore hypothétique, voire utopique - intégration Microsoft-Yahoo!, on aura une duplication des redondances et des difficultés qui ne s'additionneront pas mais se multiplieront. C'est exponentiel ce truc...

Ceci dit, pour des centaines de millions d'internautes lambda captifs de la recherche sur Internet, Google ou Yahoo 2.0 (ou Microsoft 2.0), c'est bonnet blanc et blanc bonnet.

Et entre un monopole ou un duopole, en serons-nous réduits à la portion congrue : invoquer la protection de l'UE ?


Partager sur Facebook

P.S. Et merci à Terry Semel de ne pas avoir acheté la société de Page & Brin, dont l'aventure aurait tourné court dans le giron de Yahoo! sans jamais pouvoir devenir le Google qu'on connaît aujourd'hui...

, , , , , ,

mercredi 20 février 2008

Microsoft - Yahoo! : bataille de procuration !

Microsoft - Yahoo! : la bataille de procuration est engagée !

À lire également :
Derrière le calme apparent de ces derniers jours, les acteurs se mettent sur les rangs, prêts pour la bataille de procuration (proxy contest, proxy battle ou proxy fight) : l'OPA hostile devient vraiment hostile.

Hier déjà, Bill Gates a déclaré clairement (même si ça fait partie du jeu...) que l'offre de rachat de Yahoo! par Microsoft était "honnête" (a fair offer), que la société n'avait pas l'intention de jouer à la hausse, qu'elle était prête à investir massivement dans le Web avec ou sans Yahoo!, et que Yang & Co. avaient intérêt à examiner l'offre de près (they should take a hard look at it)...

Or face aux non-réponses de Yahoo!, Microsoft a décidé d'engager une bataille de procuration afin de nommer ses propres "représentants" avant le 13 mars, date butoir pour désigner les nouveaux membres du Conseil d'administration de Yahoo! lors de la prochaine assemblée générale de la société.
Microsoft Corporation and its directors and executive officers and other persons may be deemed to be participants in the solicitation of proxies in respect of the proposed transaction. (...) Other information regarding the participants in a proxy solicitation and a description of their direct and indirect interests, by security holdings or otherwise, will be contained in any proxy statement filed in connection with the proposed transaction.
Le but étant bien sûr de "virer" l'actuel Conseil, à commencer par Jerry Yang... Cette option "stratégique" peut s'expliquer autant par les coûts estimés (environ 30 millions de dollars, contre 1 336 444 000 $ pour chaque dollar d'augmentation de l’offre...), que par les dissensions qui semblent diviser l'actuel Conseil, avec deux factions opposées qui sont, selon Kara Swisher :
  • farouchement contre, Jerry Yang, Robert Kotick, Eric Hippeau et Arthur Kern ;
  • apparemment favorables, Roy Bostock, Ron Burkle, Gary Wilson, et Maggie Wilderotter ;
  • indécis, Vyomesh Joshi et Ed Kozel.
J'imagine que Jerry doit déjà préparer ses pilules... À commencer par un nouveau plan d'indemnités de départ et autres avantages en cas de prise de contrôle par Microsoft, qui prévoit entre autres que les employés qui perdront leur travail ou le quitteront pour une "bonne raison" continueront à percevoir leur salaire et à bénéficier de leur assurance maladie pendant une période allant de 4 à 24 mois, plus un remboursement des frais engagés dans des services de replacement au travail. De nouveaux plans de stock-options sont également prévus, le tout histoire de rendre toute acquisition bien plus chère pour Microsoft (le dossier a été déposé à la SEC pratiquement en même temps que celui de Microsoft pour engager la bataille de procuration).

En attendant, vu que Yahoo! vient juste de dégraisser se restructurer, le quelque millier de salariés à peine laissés sur le carreau licenciés doivent la trouver amère..., la pilule ;-)

Les semaines qui suivent vont être chaudes, il faut vraiment que Microsoft ait de bonnes raisons de vouloir Yahoo!

* * *

J'en citerais au moins trois : Search, Ads & Apps...

Il y a trois mois à peine, Kevin Johnson déclarait que d'ici 3 à 5 ans, Microsoft se fixait pour but d'être dans le Top 2 des régies publicitaires sur le Web et d'augmenter ses parts de marché aussi bien en termes de pages vues que de temps passé par internaute sur ses produits/services et dans la recherche.
Grâce au plan "10, 20, 30, 40" :
  1. 10% des pages vues, contre 6% actuellement ;
  2. 20% du temps passé par l'internaute sur les sites de Microsoft, contre 17% actuellement ;
  3. 30% des parts de marché dans la recherche, contre moins de 10% actuellement ;
  4. 40% des parts de marché dans la publicité en ligne, contre 6% actuellement.
Un optimisme un peu trop ... optimiste, qui me faisait réagir ainsi :
Quant aux 30% des parts dans la recherche sur Internet, en l'état actuel des choses, ça paraît franchement hors de portée pour Microsoft. À moins de racheter Yahoo!...
Or au vu des résultats d'une récente étude Keynote Customer Experience sur les moteurs de recherche, reprise hier sur le blog de Yahoo! (via Search Engine Land), un simple coup d'œil suffit pour comprendre l'intérêt de Microsoft pour Yahoo! :


Où Microsoft est troisième quatrième sur toute la ligne...

Mais ce n'est pas tout. Outre les performances notables de Yahoo!, il est un projet dont je vous ai déjà parlé dans Yahoo! + Hadoop = Yadoop?, qui a été mis en avant ... hier aussi (curieuse coïncidence) sur le réseau de développeurs de Yahoo! (via John Battelle) ; les chiffres sont impressionnants :
Some Webmap size data:
  • Number of links between pages in the index: roughly 1 trillion links
  • Size of output: over 300 TB, compressed!
  • Number of cores used to run a single Map-Reduce job: over 10,000
  • Raw disk used in the production cluster: over 5 Petabytes


Donc, côté recherche, on peut comprendre que Microsoft ait l'eau à la bouche.

Côté pub, c'est Jerry Yang qui nous donne la réponse :
Avec un marché mondial de la publicité en ligne évalué à 75 milliards de dollars en 2010 (vs. 45 milliards $ en 2007, dont plus de la moitié aux États-Unis, supérieur à de précédentes prévisions), Yahoo! a toutes les cartes en main pour profiter de cette "fenêtre de croissance" et se positionner comme passage obligé...
Quant aux applications en ligne des produits/services de Microsoft, lorsque l'on sait combien sont terriblement compliqués les formats d'Office & Co., l'alliance avec Yahoo!, fortement impliqué dans l'open source, peut prendre tout son sens. Pour Microsoft du moins - déjà particulièrement incohérent en la matière -, puisque tarir la vache à lait sans construire auparavant une alternative serait peu prudent.

Voilà donc trois excellentes raisons, mais il y en a une montagne d'autres.

Ceci dit, même en admettant que Microsoft avale finalement sa proie, le plus dur restera à faire : l'INTÉGRATION...

Attention Yahoo! ;-)



Partager sur Facebook

, , , , , , , , , , , ,

dimanche 5 août 2007

Yahoo! + Hadoop = Yadoop?

Yahoo! + Hadoop = Yadoop?

Sur ce blog je parle souvent de Google, plus rarement de Microsoft (une société que je n'aime pas parce qu'elle a le tort d'avoir fait de moi et de millions d'autres des utilisateurs captifs, sans parler des lubies de l'ami Steve...) et encore moins de Yahoo!, que je trouve ennuyeux, malgré de nombreux services particulièrement réussis, dont Yahoo Pipes, auquel je finirai bien par consacrer un billet (en attendant...).

Or voilà que dans cette grisaille perce une information (via John Battelle), qui a tout d'une révolution, silencieuse certes, pour l'instant, mais extrêmement puissante et riche en potentialités, notamment dans la lutte incessante qui oppose l'ogre de Mountain View (dont je connais et apprécie les intemporels) au dauphin de Sunnyvale (dont j'ignore toujours sur quoi ils entendent focuser vraiment ;-) pour la suprématie du Web...

Dans son billet, intitulé Le pari de Yahoo! sur Hadoop, Tim O'Reilly (vieille connaissance à J-B :-) précise que Yahoo! a officiellement déclaré son soutien au projet Hadoop et nous explique en quoi cela est important et peut changer la donne, à travers les mots de Jeremy Zawodny :

[MàJ - 21 février 2008] Voir une interview au bas de ce billet...
Realizing that a growing number of companies and organizations are likely to need similar capabilities, we got behind the work of Doug Cutting (creator of the open source Nutch and Lucene projects) and asked him to join Yahoo to help deploy and continue working on the [then new] open source Hadoop project.

Ayant réalisé qu'un nombre grandissant de sociétés et d'organisations ont vraisemblablement besoin d'avoir de telles capacités, nous avons décidé de supporter les travaux de Doug Cutting (créateur des projets libres Nutch et Lucene), et lui avons demandé de rejoindre les rangs de Yahoo pour nous aider à déployer et poursuivre le développement du [nouveau] projet open source Hadoop.
Donc, petit glossaire Wikipedia :
  • Lucene est un moteur de recherche libre écrit en Java qui permet d'indexer et de rechercher du texte. C'est un projet open source de la fondation Apache mis à disposition sous licence Apache. Il est également disponible pour les langages Ruby, Perl, C++.

  • Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet.
    L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus: récupération des données, analyse des documents, recherche, etc.
    Doug Cutting est l'initiateur et le coordinateur de ce projet.
    Il est entièrement développé en Java, mais les données qu'il manipule sont dans un format indépendant de tout langage de programmation. En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents.

  • Hadoop est un sous-projet de Lucene qui contient le Hadoop Distributed Filesystem (HDFS) qui rappelle le Google File System ainsi que l'implémentation de MapReduce intitulé HadoopMapReduce qui était auparavant développé par le projet Nutch.
En termes plus simples, Jérôme Charron, le Monsieur Nutch français, nous dit ceci :
Nutch constitue une alternative transparente aux moteurs de recherche commerciaux. Seuls les résultats d'un système de recherche open source peuvent être garantis comme n'étant pas faussés (ou du moins le biais serait public). Tous les principaux moteurs de recherche ont des formules de classement propriétaires et n'expliqueront jamais pourquoi telle ou telle page a été classée d'une certaine façon. De plus, certains moteurs de recherche choisissent les sites à indexer en échange d'une rémunération plus que sur la valeur intrinsèque du site. Nutch, lui, n'a rien à cacher et n'a aucune raison de fausser ses résultats ou son crawling si ce n'est pour donner à chaque utilisateur les meilleurs résultats possibles.
En janvier dernier, après lui avoir signalé un lien sur le sujet, Jérôme me répondait :
En effet, un lien qui me fait très plaisir et qui montre bien à quel point le trio Lucene/Nutch/Hadoop est à prendre très au sérieux comme solution technologique lors de la mise en place d'un moteur de recherche d'envergure. Je suis persuadé que certains moteurs "professionnels" en ligne ne disposent pas de toutes les fonctionnalités de Nutch et en particulier de sa capacité à être déployé sur un large cluster de machines (à la google).
Dans un autre courriel, il précisait :
  • Nutch est architecturé pour pouvoir supporter des quantités de documents énormes (l'idée est d'avoir un google open source).
  • Il est basé sur le framework Hadoop (supporté par Yahoo!) pour la répartition de charge sur un cluster qui peut scaler "à l'infini" (en fonction des besoins) à la Google ou Amazon
  • Il dispose d'un système de plugins très bien fait et très performant permettant de facilement plugger des bouts de code spécifiques.
  • Il a été éprouvé dans de très nombreux projets réels.
C'est d'ailleurs au trio Lucene/Nutch/Hadoop qu'il devait penser en écrivant sa série "Le Google Killer", ici et , avant d'abandonner la partie, de guerre las (c'est moi qui interprète, mais il me dira si je me trompe). Donc j'espère et je suis sûr que la tournure que prennent les choses vont lui redonner du baume au cœur, même si avec Yahoo! supportant le projet, il est probable que les considérations commerciales ne seront pas tout à fait absentes. Mais, bon...

En attendant, lorsque Yahoo! met sa puissance financière au service de Hadoop, cela se voit ! À commencer par la salle des machines :


À suivre...


Liens connexes : , , , , , ,