Adscriptor

mardi 3 février 2009

Microsoft - Yahoo! 2008 : les mots clés de la fusion manquée

Suite à mon récapitulatif de la chronique des événements sur la fusion manquée Microsoft - Yahoo! en 2008, j'étais curieux de voir quels étaient les mots clés qui se dégageaient de ces 52 billets d'Adscriptor.

Je les ai donc fondus en un seul document d'environ 37 000 mots (soit une moyenne de 700 mots/billet), que j'ai traité en éliminant les titres, les tags, etc., pour le soumettre à une analyse statistique et en dégager les 70 mots clés ayant un nombre d'occurrences égal ou supérieur à 20 (source Quensis).

Les quatre premiers mots clés sont :

Yahoo! (621 occurrences) (autrement dit, dans chaque billet j'ai mentionné presque 12 fois Yahoo!) ;
Microsoft (408 occurrences) (un peu moins de 8 mentions par billet) ;
Google (228 occurrences) (plus de 4 mentions par billet) ;
Action (88 occurrences).

En les mettant dans Wordle pour obtenir un nuage des résultats, voici deux versions, l'une intégrant GYM et l'autre sans :

Ce que j'aime avec les "nuages sémantiques", c'est qu'ils offrent un raccourci saisissant des sujets abordés, pour peu que les termes inclus soient vraiment significatifs, c'est-à-dire sans les articles et mots vides de toute sorte qui encombrent le discours. Sinon avec 1794 occurrences nous aurions un DE presque aussi omniprésent que le JE de Sarkozy...

Il n'y a qu'à voir le tableau des 80 premières occurrences du fichier fusionné pour mieux comprendre :

En tout cas, sur les deux, voici au moins une fusion qui aura réussi...

Jean-Marie Le Ray

Partager sur Facebook

P.S. La présence de mots anglais est due au fait qu'en proposant la traduction de nombreux passages d'articles ou de documents anglo-saxons, j'ai souvent laissé l'original dans le corps des billets. Voici la liste complète des 70 mots clés de la fusion manquée Microsoft-Yahoo (ayant un nombre d’occurrences égal ou supérieur à 20) :

YAHOO (621)
MICROSOFT (408)
GOOGLE (228)
ACTION (88)
DEUX (87)
ACTIONNAIRES (84)
OFFRE (79)
BALLMER (79)
YANG (67)
MILLIARDS (67)
VALEUR (64)
ACTIONS (59)
INTERNET (58)
SOCIETE (52)
MARCHE (52)
ACQUISITION (52)
CONSEIL (50)
ICAHN (46)
JERRY (43)
ENTREPRISE (43)
AUJOURD’HUI (42)
ACCORD (42)
MILLIONS (41)
SEARCH (40)
ADMINISTRATION (40)
RECHERCHE (39)
RESULTATS (33)
FUSION (33)
WEB (32)
SERVICES (32)
BATAILLE (32)
AOL (30)
ANNONCE (30)
PREMIER (29)
TRANSACTION (28)
CAPITAL (28)
MSN (27)
BOARD (27)
ANALYSE (27)
RAPPORT (26)
PUB (26)
PROPOSAL (26)
DOLLARS (25)
ANNEE (25)
PROXY (24)
POSITION (24)
COMPANY (24)
STEVE (23)
REPONSE (23)
PRIX (23)
LETTRE (23)
JOURS (23)
FACEBOOK (23)
COURS (23)
STRATEGIE (22)
PLAN (22)
PAGES (22)
CARL (22)
BILLET (22)
AVIS (22)
QUESTION (21)
PUBLICITE (21)
PARTS (21)
NOUVEAU (21)
MONDE (21)
COTE (21)
CAPITALISATION (21)
SHAREHOLDERS (20)
SAVOIR (20)
PROPOSITION (20)

Microsoft, Yahoo, Google, GYM, nuage sémantique

dimanche 1 février 2009

Microsoft - Yahoo : plus gros flop 2008 ?

Cf. le nuage sémantique des mots clés de la fusion manquée

Deux NON marqueront durablement l'histoire de Yahoo! : le refus de Terry Semel d'acheter Google (pour lequel Yahoo! aurait proposé 3 milliards de dollars durant l'été 2002, alors que Page & Brin évaluaient leur moteur au moins à 5 milliards $ !), et la fin de non recevoir de Yang à Ballmer, en commençant par refuser une offre initiale à 40$ l'action Yahoo!, bien avant l'annonce officielle de l'OPA de Microsoft sur Yahoo!, il y a un an jour pour jour.

Si vous aimez la lecture, voici donc le récapitulatif de plus de 50 billets que j'ai écrits à ce sujet, qui représentent ma "chronique de la danse nuptiale entre Microsoft et Yahoo!" selon Szarah, en remontant jusqu'en mai 2006 :

Google vs. Microsoft : la bataille de titans ne fait que commencer (mai 2006)
Microsoft pourrait faire l'acquisition de Yahoo ou d'eBay (juin 2006)
GYM : que va faire Yahoo ? (7 novembre 2006)
Pourquoi Yahoo est-il une proie convoitable par Microsoft ? (19 novembre 2006)
La fin de GYM se dessine, lentement mais sûrement... (mars 2007)
Microsoft - Yahoo : la machine s'emballe (4 mai 2007)
GYM : une analyse (10 mai 2007)
Le dilemme de Microsoft : Facebook ou Yahoo ? (septembre 2007)
Google vs. Yahoo! (octobre 2007)
Microsoft veut Yahoo ! (1^er février 2008)
Microsoft - Yahoo!, mon analyse (1^er février 2008)
Microsoft - Yahoo! : l'OPA hostile (4 février 2008)
Microsoft - Yahoo : Jerry Yang prend son temps ! (6 février 2008)
Google, Yahoo, Microsoft redessinent la carte du Web (10 février 2008)
Microsoft - Yahoo! : les dissidents s'organisent... (11 février 2008)
Microsoft - Yahoo! : NON ! (11 février 2008)
Microsoft - Yahoo! : Jerry Yang liste les actifs de Yahoo! (11 février 2008)
Microsoft - Yahoo! : la fin de Yahoo! (11 février 2008)
Microsoft - Yahoo! sur Twitter et ... Adscriptor (12 février 2008)
Microsoft - Yahoo! : petit glossaire pour mieux comprendre ce qui se passe... (13 février 2008)
Microsoft - Yahoo! : les acteurs se positionnent, la conclusion est-elle proche ? (15 février 2008)
Microsoft - Yahoo! : bataille de procuration ! (20 février 2008)
Microsoft - Yahoo! : Yahoo! Inc. publie son rapport annuel 2007 (28 février 2008)
Microsoft - Yahoo! : GYM 2007 (28 février 2008)
Microsoft - Yahoo! : la lettre de Steve Ballmer (6 avril 2008)
Microsoft - Yahoo! : la lettre de Jerry Yang (7 avril 2008)
Microsoft - Yahoo! : Jerry Yang vs. Steve Ballmer (7 avril 2008)
Microsoft - Yahoo! : Google entre dans la danse... (9 avril 2008)
Microsoft, Yahoo!, Google et les autres (10 avril 2008)
Microsoft, Yahoo!, Google et ... Issuu ! (11 avril 2008)
Microsoft - Yahoo! : la valeur de Yahoo! (17 avril 2008)
Microsoft - Yahoo! : la semaine cruciale (22 avril 2008)
Microsoft - Yahoo! : le bluff de Microsoft (25 avril 2008)
Microsoft + Yahoo! = MicroHoo ? (2 mai 2008)
Microsoft - Yahoo! : Microsoft abandonne ... pour l'instant ! (4 mai 2008)
Microsoft - Yahoo! : NON ! - Mon analyse (4 mai 2008)
Microsoft - Yahoo! : Jerry Yang persiste et signe (5 mai 2008)
Microsoft - Yahoo! : est-ce une question d'argent ? (6 mai 2008)
Microsoft - Yahoo! : l'action Yahoo! (9 mai 2008)
Microsoft, Yahoo! et ... Carl Icahn ! (14 mai 2008)
Microsoft - Yahoo! : lettre de Carl Icahn à Yahoo! (15 mai 2008)
Microsoft - Yahoo! : Jerry Yang répond à Carl Icahn (16 mai 2008)
Microsoft - Yahoo! : que va faire Microsoft ? (18 mai 2008)
Microsoft - Yahoo! : une transaction partielle a-t-elle un sens ? (19 mai 2008)
Microsoft - Yahoo! : Jerry Yang's ABM strategy (3 juin 2008)
Microsoft - Yahoo! + Google = Google ! (17 juin 2008)
Microsoft - Yahoo! : pression sur Jerry Yang (7 juillet 2008)
Microsoft - Yahoo! : Yahoo! rejette une proposition conjointe Microsoft / Carl Icahn (13 juillet 2008)
Microsoft - Yahoo! : Yahoo! communique ! (18 juillet 2008)
Microsoft - Yahoo! : accord Yahoo! - Icahn ! (21 juillet 2008)
Microsoft - Yahoo! : Ballmer and blah-de-blah-de-blah (28 juillet 2008)
Microsoft - Yahoo! : Ballmer oui, Microsoft non ? (17 octobre 2008)

Voici également deux documents réunissant certains de ces billets. Avec Issuu :

Plus un dossier PDF Adscriptor sur Microsoft-Yahoo! de 100 pages.

Quant à la suite...

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Microsoft, Yahoo, Google, GYM

samedi 31 janvier 2009

Google - Click Forensics : que cache la rumeur ?

Très étonné par cette affaire de fausse rumeur depuis avant-hier, j'essaie de m'expliquer le pourquoi du comment.

Or quelle n'a pas été ma surprise de découvrir sur le compte Twitter de Tom Cuthbert, fondateur et PDG de Click Forensics, qu'il cautionne lui-même cette rumeur dans deux messages twittés :

l'un renvoyant vers le premier article à l'origine de la rumeur :

en citant expressément ce paragraphe :
Google and Click Forensics have often locked horns in the past over the rate of click fraud. Google has accused Click Forensics of being inept in its methodology and misleading in its results in order to make the problem seem bigger than it is. Meanwhile, Click Forensics has charged that Google has purposefully trivialized click fraud and mischaracterized it as a minor problem.
Signalons pour autant que toute la partie graissée n'est qu'un copier-coller, liens compris, d'un paragraphe identique, écrit à la lettre près plusieurs mois auparavant... par le même journaliste (qui en plus étaye son "article" en citant un courriel remontant à 2007...) !

l'autre définissant le billet de Search Engine Watch comme étant probablement le meilleur article jamais rédigé sur la question !

Il est également repris dans la rubrique presse du site :

Alors même que celui-ci ne dit rien de nouveau mais se contente de réélaborer sur la base du premier, qui lui-même reprend des infos vieilles de plus de deux ans !

Bizarre, vous avez dit bizarre... Ou, juste par hasard, est-ce que la collaboration Google - Click Forensics ne battrait pas de l'aile ?

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Google, Click Forensics, revenu par clic, RPC, CPC, CTR, TDC, RPM, CPM, monétisation, monétiser, fraude aux clics, click fraud, clics invalides, invalid clicks, invalid clicks rate, liens sponsorisés

Google - Click Forensics : la fausse rumeur monte...

Suite : Google - Click Forensics : que cache la rumeur ?

J'ai montré hier que le seul article à l'origine de cette rumeur se fondait sur un courriel datant de plus de deux ans, alors que l'article signé Juan Carlos Perez, d'IDG, n'avait été publié qu'avant-hier sur The Industry Standard !

Or hier The Industry Standard en remettait une couche, sous la signature d'un autre journaliste, Lincoln Spector :

Probablement satisfait de la montagne de rétroliens qu'a dû leur attirer le premier article, ce deuxième morceau de pure information ne fait rien d'autre que de répéter les mêmes choses, si ce n'est que pour mieux appuyer ses dires, il se base sur un autre article de Search Engine Watch, rédigé à partir des mêmes sources éculées...

Or la sauce commence à prendre,

et la rumeur à dépasser les frontières US !

J'ignore ce que dit le japonais, mais le titre italien, c'est "Google rejette les accusations de fraude aux clics" !

Encore à suivre...

Jean-Marie Le Ray

Partager sur Facebook

P.S. Hier encore, sur son blog, Click Forensics déclarait :

But Google’s results showed an 18% growth in paid clicks and revenue. That’s just stellar. Since Google controls the large majority of the search market and 98+% of Google’s revenue comes from paid search, this means two things. One, Google is increasing market share. No news there. Two, the market as a whole is still growing at double-digit rates. That’s the real surprise and the truly good news.

À la limite, il y aurait même une troisième explication possible, qui coule de source....

vendredi 30 janvier 2009

Google : en attendant GDrive...

Qui risque d'arriver plus vite que Godot...

Depuis bientôt 4 ans qu'on en parle (dès novembre 2005, ici, là, ou là encore), Google poursuit sa stratégie, imperturbable. Pour mémoire, rappelons que le leadership du moteur tournait (et tourne toujours...) autour de 4 grands thèmes :

la rapidité de la recherche

l'exhaustivité et la fraîcheur de l'information

la pertinence

l'interface utilisateur

Avec au cœur de la philosophie Google l'approche "Aucune contrainte" se déclinant initialement autour de 4 postulats :

Pas de contrainte de puissance de traitement

Pas de contrainte de capacités de stockage

Pas de contrainte de bande passante

Pas de contrainte liée à la monétisation des services...

Plus une offre de produits/services à l'internaute s'appuyant sur 3 piliers :

la vitesse (un leitmotiv chez GG)

le stockage intégral des données de l'utilisateur

la transparence de la personnalisation

Le deuxième volet, Store 100% of User Data, expressément nommé GDrive par Google dans ses notes, était on ne peut plus explicite :

Stocker 100 % des données utilisateur

Le stockage illimité nous permettra d’héberger l’ensemble des fichiers des utilisateurs : courriels, historiques Web, images, signets, etc., pour les rendre accessibles depuis n'importe quelle application ou plate-forme.
Tous les efforts que nous avons déployés dans ce sens, avec des projets tels que GDrive, GDS ou Lighthouse, se sont heurtés jusqu’à présent aux contraintes imposées par des capacités de bande passante et de stockage limitées. À titre d’exemple, les développeurs de Firefox travaillent actuellement sur le stockage des données côté serveur, même s’ils n’envisagent d’emmagasiner que les URL et non pas l'intégralité des pages Web, pour des motifs de place.
Ce projet va nous permettre d’alléger le côté client pour concentrer toute la puissance côté serveur (thin client, thick server), un modèle qui renforce nos atouts vis-à-vis de Microsoft tout en offrant davantage de valeur ajoutée à l'utilisateur.
De plus, avec le 100 % stockage, la version en ligne de vos données va devenir votre copie de référence, votre original, alors que la version stockée sur votre ordinateur local fera plutôt fonction de cache, avec pour conséquence, et non des moindres, que les copies de vos données seront davantage sécurisées en ligne que sur votre propre ordinateur.
Une autre implication de ce projet est que 100 % des données utilisateur stockées sont mieux valorisées sur Internet, dès lors qu’elles sont accessibles et interopérables d’une application à l’autre. Exemple : un profil d'utilisateur Orkut devient plus intéressant s'il est accessible depuis Gmail (carnet d'adresses), depuis Lighthouse (liste d’accès), etc.

(À noter que j'avais traduit Golden copy par copie de référence en m'inspirant de ce billet, en anglais, particulièrement éclairant sur la question.)

Nous voyons donc aujourd'hui que Google ne change pas de cap, notamment à la lumière de récentes initiatives concernant la vitesse, GDrive ou la personnalisation "transparente", dont Alex Chitu nous dit en concluant :

Preferred Sites is an extension of Google SearchWiki, the feature that allowed you to make per-query changes. If the feature goes live to everyone, people will be able to pick a list of authoritative sites and influence all search results.

Or j'écrivais il y a 3 ans, dans mes commentaires aux diapositives 7 et 8 :

Quant à l'expérience Wiki appliquée à la recherche, si j'interprète bien le principe des Wikis, cela signifierait permettre à chaque internaute de modifier les pages à volonté pour rendre la recherche dynamique.

Ou comment la stratégie de Google se déploie sous nos yeux...

Je suis impressionné !

Jean-Marie Le Ray

Partager sur Facebook

P.S. À mettre en parallèle avec l'absence quasi-totale de stratégie cohérente chez Microsoft ou Yahoo!

Actualités, Google, Google Strategy, stratégie de Google, GDrive, GoogleDrive, Google Drive, Google Web Drive, Web Drive, Internet, Recherche, Web 2.0

Google et la fraude aux clics

Google - Click Forensics : la fausse rumeur monte...
Google - Click Forensics : que cache la rumeur ?

Comment réagit Google, face à ce problème qui refait surface assez régulièrement, au moins depuis 2006 (année où la fraude aurait coûté 666 millions $ aux annonceurs...) ? Signe que non seulement il n'est pas résolu, mais encore qu'il est en hausse constante, selon un communiqué récent de Click Forensics, et conformément à certaines prévisions.

D'après la terminologie française adoptée par Google, les "clics incorrects" sont détectés par diverses techniques avancées de détection, de filtrage et de contrôle, et communiqués aux annonceurs.

Google a également publié plusieurs rapports, dont celui d'un expert indépendant, M. Alexander Tuzhilin, et plus récemment un document intitulé Report on Third-Party Click Fraud Auditing. Vous pouvez aussi consulter ce doc de Boris et Eugene Mordkovich qui explique les mécanismes frauduleux.

D'ailleurs, Google collabore avec Click Forensics depuis l'année dernière. Or ce matin, je lis dans mes flux que Google contesterait le rapport à peine publié, d'après un email dont la teneur est la suivante :

These estimates continue to count clicks Google does not charge to advertisers as fraudulent, so they are not actually click fraud estimates, ... Furthermore, their estimates have never reflected the invalid click rates we see at Google, ...

Problème : l'article signé Juan Carlos Perez, d'IDG, a été publié hier !

alors qu'on retrouve trace du même email dès ... 2007, pour une affaire qualifiée de dépassée déjà à l'époque !

Ça n'empêche pas les internautes américains d'en débattre encore aujourd'hui, comme hier.

Donc, pour l'instant, je n'ai pas trouvé d'autres sources corroborant cette contestation par Google du rapport de Click Forensics, et l'info commence à être reprise telle quelle...

Mais qu'en penser pour autant ? Que le silence de Google face à ces chiffres et aux déclarations de Click Forensics (Google’s results showed an 18% growth in paid clicks and revenue. That’s just stellar.) est une confirmation implicite de leur réalité ? Et, si oui, à quand une réaction "officielle" ? À suivre...

Jean-Marie Le Ray

Partager sur Facebook

P.S. À titre de comparaison, l'année dernière Google minimisait l'impact de la fraude en ne reconnaissant "officiellement" qu'un taux de clics incorrects qui passeraient ses filtres inférieur à 0,02% de l'ensemble des clics.

mardi 27 janvier 2009

Adscriptor en nuages

Dans les commentaires de mon précédent billet, je réponds la chose suivante à Szarah :

À la question « Je me demande s'il serait possible de dégager la thématique véritable du discours au départ des mots », pour moi la réponse est évidente : OUI !
Je fantasme sur les nuages sémantiques depuis longtemps, et maintenant que je dispose d'outils pertinents pour en faire (binôme Quensis + Wordle), je souhaite vraiment approfondir ce filon d'une extrême richesse.
Si je devais faire un parallèle, je dirais que ça me fait penser à la graphologie.
L'écriture en dit toujours beaucoup plus qu'on ne croit sur le scripteur.
Dans les fréquences signifiantes autant que dans les hapax...

Dès le début de ma réflexion et du feedback à Exalead, l'idée était de créer un nuage de mots clés à partir de l'univers lexical d'un blog ou d'un site.

Je ne parlais pas de tags, qui sont plus ou moins ponctuels, mais d'une fonctionnalité qui indexerait l'intégralité d'un site ou d'un blog à un instant donné pour l'analyser et restituer les (co)occurrences plus significatives du blog ou site considéré. Ce type d'analyse intégrale serait censé faire ressortir des centres d'intérêt dont l'auteur n'est qu'à moitié conscient, c'est un peu le même principe que ce que font les chercheurs ou les universitaires lorsqu'ils analysent la sémantique d'une oeuvre, d'un livre.

Un peu comme si les tags étaient la partie consciente, délibérément choisis, alors qu'en revanche le principe du nuage sémantique serait de faire ressortir l' « inconscient », toujours très riche en enseignements.

Donc aujourd'hui que j'ai la possibilité de réaliser moi-même cette analyse en prenant Adscriptor comme cobaye, je ne vais pas m'en priver. J'ai ainsi réalisé trois nuages, les deux premiers à partir de mes tags pris à différents moments de l'évolution du blog :

- 21 tags sur 348 ayant une fréquence d'occurrences égale ou supérieure à 10 en septembre 2006 :

- 123 tags sur 800, dans la lignée de mes précédentes statistiques, ayant une fréquence d'occurrences égale ou supérieure à 7 en janvier 2009 :

et le troisième en analysant l'intégralité du contenu texte (sans les tags), soit 587 billets en 37 mois de blogging, pour un total de 522 944 mots avant traitement et 532 905 occurrences après traitement (apostrophes changées en retour chariot, etc). D'où une moyenne globale de 14 403 mots/mois et 908 mots/billet, soit pour arrondir 16 billets de 900 mots chacun par mois :

Donc si l'on enlève le tag "Actualités", qui représente la moitié du total des billets mais dont il est évident que le terme est absent de leur contenu, on voit bien qu'il y a une très forte corrélation entre les tags et les thèmes majeurs qui ressortent de l'analyse de plus de 530 000 mots !

Ainsi mon idée d'automatisation d'un système de nuages sémantiques prévoyait ce genre d'analyse, soit sur tout le contenu d'un blog/site, soit sur des thèmes donnés : analyser uniquement les billets tagués Google ou Facebook, par exemple. Cela permettrait une granularité encore plus fine, avec en sortie des nuages clicables (vers les billets où sont mentionnés les termes) et widgétisables. Mais Exalead n'en a pas voulu, dommage...

Ils ont pourtant lancé CloudView^TM, comme le rapporte François Bourdoncle dans cette interview.

Pour en revenir à mon blog, j'ai été fort étonné de la prépondérance absolue de GOOGLE (2447 fois), qui représente plus du double des deux occurrences significatives suivantes : INTERNET (1174 fois) et WEB (1074 fois, dont 154 fois pour Web 2.0). Ainsi, contrairement à ce que laissent supposer les tags, Google est beaucoup plus présent dans mes billets que je n'imaginais (avec une moyenne supérieure à 4 occurrences par billet !), Yahoo est traité davantage que Microsoft, et j'observe un déplacement progressif des questions techniques (référencement, monétisation, écriture Web, etc.) vers une vision plus large du Web et de l'Internet. Globalement, il y a cependant cohérence entre les tags et les thèmes qui se dégagent de l'analyse.

Voici le début du tableau :

Anecdote : le décompte me donne 4705 JE (3046 JE + 1659 J’) sur 532 905 occurrences, soit une moyenne d'utilisation de 9 sur 1000 (mais après tout ce blog est rédigé à la première personne), à peu près moitié moins que Sarkozy (17 fois sur 1000), dont le score est pourtant plus modeste qu'on ne pourrait le croire !

Jean-Marie Le Ray

Partager sur Facebook

P.S. Une curiosité pour finir : ce billet est le 16^e du mois et il fait environ 900 mots...

analyse, blogging, stats, nuage sémantique, Google, Internet, Web 2.0

Pages

mardi 3 février 2009

dimanche 1 février 2009

samedi 31 janvier 2009

vendredi 30 janvier 2009

mardi 27 janvier 2009