Affichage des articles dont le libellé est sémantique. Afficher tous les articles
Affichage des articles dont le libellé est sémantique. Afficher tous les articles

lundi 26 novembre 2007

Powerset : recherche en langage naturel et Web sémantique

Powerset : recherche en langage naturel et Web sémantique

Je dédie ce billet à mon père, Bernard Le Ray, parti pour un monde meilleur il y a 35 ans aujourd'hui.

Est-ce l'avenir de la recherche sur le Web ? Est-ce que ce sera une alternative de poids à Google ?

Voilà plus d'un an que le lancement de l'outil était annoncé pour fin 2007, or nous y sommes. Mais apparemment Powerset n'est encore qu'en phase de pré-lancement.


La semaine dernière, son fondateur, Barney Pell, a donné une conférence intitulée : POWERSET - Natural Language and the Semantic Web


accompagnée d'une présentation fort intéressante, où il nous explique plusieurs des notions sous-jacentes à la vision ambitieuse de Powerset. Que l'on peut résumer comme suit : grâce à la recherche en langage naturel,

- interpréter le Web
- l'indexer
- interpréter la requête
- chercher
- trouver



Et pour trouver, on va puiser dans différentes sources intégrées :


Exemple : sites Web, flux, blogs, archives, métadonnées, vidéos, podcasts, bases de données, etc.

Entre parenthèses, ça me rappelle furieusement la recherche universelle selon Google et les évolutions prévues pour les moteurs de recherche en 2010...

Donc quelle serait la différence entre Google et Powerset ? La réponse est dans le titre de l'intervention de Barney Pell : langage naturel et Web sémantique.

Alors en quoi le TAL (Traitement Automatique des Langues), ou TALN (Traitement Automatique du Langage Naturel, ou Traitement Automatique des Langues Naturelles) (voir commentaires) peut-il aider à l'exploitation du Web sémantique ?

Déjà, le postulat de Pell est qu'à l'heure actuelle le Web sémantique ne réussit pas à exprimer tout son potentiel car, entre autres, les ressources et les langages dédiés sont chers à créer, d’où un manque d’applications viables, d’où la difficulté de monter en puissance et de fédérer une masse critique de développeurs et … d’utilisateurs, etc.

Par conséquent le langage naturel peut - et doit - permettre de réduire les efforts de développement, en créant des annotations à partir de textes non structurés d'une part, et en générant des ontologies de l'autre.

L'idée est de rendre les documents plus intelligents :

1) par la proximité sémantique et conceptuelle, pour passer d'un document simple contenant de mots clés, à un document vecteur de mots clés (shift from “doc as bag-of-keywords” to “doc as vector-of-keywords”),

2) par l'adjonction "hors page" de textes d'ancrage à un document donné (Adding off-page text to doc), et

3) en explorant la structure linguistique de chaque document, qui contient codifiées, selon Pell, les intentions des documents.

Puis l'indexeur sémantique "cracks the code" de la structure linguistique pour en extraire le sens, après quoi un TALN profond est appliqué à l'ensemble du corpus pour bâtir une représentation riche (ontologies).

Le nœud central de la recherche en langue naturelle étant de dégager un appariement des représentations intentions : les intentions des requêtes d’un côté, les intentions des documents de l’autre.

L'appariement qui en sort (match) est le résultat.

Cette notion d'appariement est fort bien illustrée dans ce document de 2002, signé Sylvie Dalbin :


Or s'il est vrai que certains considèrent le Web comme une gigantesque base de données où rechercher les intentions, attention cependant à ne pas faire de Powerset un moteur de divination plus ou moins farfelu.

Nous avons déjà un moteur d'intentions, dont les concepteurs nous expliquent très clairement où se situent, selon eux, les différences entre tags et intentions (via Olivier) :
Otavo’s core concept is to organize your information on intentions (we call quests) instead of tags. Tags are used as a secondary organizer.

What’s the difference between Tags and Intentions?

Tags are categories. As categories, a tag does not store HOW or WHY you would use the information tagged, just where it belongs in the grand scheme of things.

Intentions store HOW and WHY you want to use the information.
Que je traduirais ainsi :
L'idée centrale d'Otavo consiste à organiser vos informations autour des intentions (que nous appelons requêtes) plutôt qu'autour des mots clés. Les mots clés sont utilisés comme des unités secondaires d'organisation.

Donc quelles sont les différences entre les mots clés et les intentions ?

Les mots clés sont des catégories, et, en tant que tels, ils ne vous indiquent ni COMMENT ni POURQUOI vous souhaitez utiliser l'information qu'ils étiquettent, mais juste à quelle catégorie elle appartient dans le grand ordonnancement des choses.

Par contre les intentions sont porteuses du POURQUOI et du COMMENT vous souhaitez utiliser l'information.
Vous le voyez, je traduis "tags" par "mots clés", car les mots clés sont au centre de la reformulation des requêtes, en cartes mentales pour les utilisateurs, en ontologies pour les moteurs.

Voir ici pour mieux comprendre ce à quoi je me réfère.


Donc apparier les intentions entre celles contenues dans des milliards de documents fichiers sur Internet et celles des milliards de requêtes des internautes, qui plus est multilingues, c'est pas gagné. Et dire de Powerset que c'est le Google killer, comme on le voit un peu partout, me semble largement prématuré. Même s'il est clair que l'avenir est au Web sémantique, tout au moins en partie.


Scott Prevost, responsable produits chez Powerset, confiait en juillet a Francis Pisani « qu’une fois leur système au point pour l’anglais (...) il leur suffirait du travail d’une seule personne pendant deux ans (...) pour mettre au point la technologie dans une autre langue. »

Je veux bien le croire, mais bon courage. Car vu la complexité des langues, bonjour la tâche ! Et attention aux accents...

Liens connexes qui prévisualisent certaines fonctionnalités de Powerset :

Partager sur Facebook

, , , , , , , , , ,

dimanche 14 octobre 2007

Graphe sémantique de 100 blogs influents

Graphe sémantique de 100 blogs influents


Après le graphe social, voici le graphe sémantique. Quelque chose qui me touche de près (cf. humain sémantique) et à quoi je pense depuis longtemps, sous forme de nuage sémantique :
Le but serait de créer un nuage de mots clés à partir de l'univers lexical d'un blog ou d'un site.
Je ne parle pas de tags. Je parle d'une fonctionnalité qui indexerait l'intégralité d'un site ou d'un blog à un instant donné pour l'analyser et restituer les cooccurrences plus significatives du blog ou site considéré.
Le nuage correspondant serait alors fourni par Exalead au blog/site qui pourrait l'intégrer au mieux.
Une fonctionnalité proposée il y a un an à Exalead (qui l'a refusée) (Merci Jean-Marie pour la proposition mais cette fonctionnalité ne peut être développée pour le moment. Nous reviendrons sur cette fonctionnalité dès que nous aurons avancé sur d'autres sujets, les blogs par exemple), en même temps que la possibilité pour les webmasters d'intégrer un flux personnalisable de résultats sur leurs pages.

L'idée derrière ces deux propositions était, selon moi, une voie détournée en vue d'une utilisation de masse d'Exalead :
Je pense que l'approche Exalead vs. Google n'est pas la bonne, en ce moment ce serait un peu la lutte du pot de terre contre le pot de fer. Et quand bien même les qualités du pot de terre seraient infiniment supérieures à celles du pot de fer, en l'état actuel des choses, il faut bien reconnaître que c'est Google qui rafle la mise.
Perso, qu'on excuse ma franchise, mais j'utilise Google à longueur de journée, j'en suis très satisfait, et je n'ai aucune intention de changer de moteur. Et je pense que nous sommes des millions dans ce cas.
Donc, plutôt que d'attaquer Google de front, je me dis qu'une meilleure stratégie pourrait être de viser d'abord la complémentarité au lieu de vouloir l'opposition à tout prix. En déplaçant les enjeux sur le terrain des services personnalisables, plus que jamais dans l'air du temps.
Concrètement, ça veut dire qu'en fournissant potentiellement à des millions d'utilisateurs des services perso qui se démarquent fortement de ceux de Google, et en imprimant à ces services une marque fortement identitaire, en l'occurrence celle d'Exalead, ces millions d'utilisateurs pourront voir cohabiter sur leur page d'accès personnalisable au Web (dans la mouvance des Netvibes, Webwag and co.), de plus en plus de services fournis par Exalead au côté de leur onglet de recherche préféré, que ce soit Google, Yahoo, MSN, Ask ou autre.
Ce serait là un moyen non intrusif de proposer l'utilisation d'Exalead à des utilisateurs qui ne l'utiliseront peut-être jamais sans cela.
Enfin, un autre avantage du fait que ces services soient développés par un moteur français à l'origine, c'est qu'en général tous les services proposés par Google (autocomplétion et autres...) sont optimisés pour l'anglais mais aux dépens des autres langues. C'est donc une piste supplémentaire à parcourir en direction de toutes les familles linguistiques qui se sentent un peu délaissées sur le Web, et qui représentent quand même globalement, plus que toute l'audience anglo-saxonne réunie.
Bref, tout ça est resté lettre morte, dommage.

C'est donc avec une grande surprise - et un grand bonheur - que j'ai découvert il y a quelques jours la première (à ma connaissance) cartographie sémantique de blogs. Qui reprenait le top 10 Wikio des blogs francophones. (via GuiM)


Et son auteur, Hubert WASSNER, prof d'informatique, d'expliquer :
La sémantique est l'analyse du sens des mots, c'est donc un savoir faire typiquement humain. Cependant une analyse fine de la masse d'information accessible sur internet peut permettre de calculer des distances entre les mots. Cela ne donne pas directement leur sens mais on peut utiliser cette information pour construire une carte de manière automatique.
On visualise leur distances sémantique que l'on a calculé grâce à des requêtes sur un moteur de recherche. Des liens élastiques sont simulé pour essayent de faire respecter toutes les distances entre les mots analysé. Le résultat est un graphe ou les mots son disposé sur un plan de manière a respecter au mieux possible les distances sémantiques.
Où l'on voit bien sur le graphe que le noyau est composé de Techcrunch, Loïc Le Meur, Fred Cavazza, GuiM et Mashable, avec aux pourtours, Embruns, Presse-citron, KelBlog, BigBangBlog et Versac.

Le noyau ayant un univers sémantique plus proche et ciblé que les pourtours. On voit donc que le classement sémantique peut diverger du classement ordinal (Presse-citron, par exemple).

Or le Professeur Wassner vient de réitérer l'expérience avec le top 100 de Wikio, où Adscriptor est 77e ce mois-ci, en nous expliquant que :
La couleur des bulles contenant les noms des blogs est en rouge d'autant plus vif que son classement est bon. Le positionnement dans l'espace ainsi que les liens (matérialisé par des traits noirs) sont issus d'un calcul de mesure de distance sémantique. Il ne s'agit pas de lien "internet" (lien hypertexte) mais de ce que les gens disent de ces blogs sur internet... Certain blogs peuvent être sémantiquement très proches d'un blog du "top 10" et ne pas du tout être bien classés... On voit ici les limitations des systèmes à base de classement.
Donc, de fait, sémantiquement parlant, Adscriptor serait dans le top 50.



Je ne dis pas ça pour me faire mousser (bien que je tienne beaucoup à cette reconnaissance sémantique), mais simplement parce que je trouve que mes stats ne reflètent aucun de ces 2 classements, puisque mon nombre de visiteurs quotidiens oscille entre 200 (le plus souvent) et 300 (dans les bonnes périodes), ce qui doit être l'un des taux de fréquentation - et de participation - les plus faibles du top 100.

Alors pourquoi ? That's the question. Si vous avez la réponse...


Partager sur Facebook

P.S. Nous n'en sommes pas encore au "nuage sémantique" mentionné en ouverture de ce billet, mais c'est déjà une bonne étape. Je suis sûr que si quelqu'un développait un tel widget ou une appli pour Facebook (sur les différences entre apps et widgets...), par exemple, il ferait un carton. Malheureusement je n'en suis pas capable. Faut dire aussi que j'ai toujours de ces idées...

, , , , , , , ,

mardi 25 avril 2006

Google et le business des noms de domaine - II

Google et le business des noms de domaine - Du type-in au typo-in...

Chose promise, chose due : suite annoncée du billet Google et le business des noms de domaine, publié le 5 février dernier, dans lequel je tentais de décrire succinctement le service « AdSense for domains » de Google et les incursions de la firme de Mountain View dans la sémantique contextuelle.

Le billet se terminait sur le chapitre Du type-in au typo-in..., un sujet brûlant qui concerne les trois volets de la saisie directe (ou type-in, c'est-à-dire lorsque vous écrivez directement un nom de domaine dans la barre d'adresse du navigateur) :
  1. les noms de marque
  2. les coquilles
  3. les noms communs génériques
Les domaines associés aux points 1. et 2. sont habituellement qualifiés de cybersquatting et typosquatting, ce qui se comprend lorsque les noms incriminés portent atteinte aux droits d'une marque, d'une personnalité ou autre. L'AFNIC est très active sur le sujet.
Or ces concepts sont-ils aussi applicables aux noms communs génériques et aux coquilles portant sur des noms communs génériques ? Et n'y a-t-il pas là un marché légal, dès lors que les noms de marque ne sont pas touchés ? Il serait urgent de répondre à ces questions, vu que l'émergence des noms de domaine multilingues (ou accentués, ou IDN) ne va pas tarder à soulever de nombreux conflits, faute d'une législation claire en la matière.
Apparemment, comme toujours, les positions diffèrent du tout au tout des deux côtés de l'Atlantique. J'ai aussi lu quelque part (je ne me souviens plus de la source) que ce mode de recherche est davantage pratiqué par les anglo-saxons que par les francophones, autre signe des diversités nombreuses qui caractérisent les différentes « cultures Web ».

L'occasion de revenir sur la question m'est donnée par une actu sortie hier, dont le titre traduit est « Le dispositif anti-typosquatting de Microsoft pourrait faire du tort à Google » (Microsoft's anti-typosquatting ploy could hurt Google), qui annonce peut-être de nouveaux grands chamboulements :

En bref, il s'agit d'une fonctionnalité nommée Typo-Patrol, intégrée à un logiciel développé par le centre de recherche de Microsoft : Strider URL Tracer, qui vous permet de générer des typos (ou coquilles, ou fautes de frappe, etc.) à la volée à partir d'une URL quelconque, puis de sélectionner les noms que vous voulez vérifier et de tracer ensuite les résultats qui vous intéressent en ouvrant les adresses correspondantes dans Internet Explorer.

Pour avoir une idée de ce qu'est un générateur de typos, entrez un nom quelconque (anglais de préférence) dans le champ ci-dessous :

Keyword Typo Generator Tool © SEO Chat™

Keyword
or keyterm


On trouve plusieurs outils de ce type sur Internet, en voici un autre.

Donc, toujours selon l'article mentionné plus haut, le business des noms de domaine avec coquilles (typo DNs) représenterait plus de 3 millions de sites (!), soit près de 4 % du parc mondial des domaines enregistrés, autant d'usines à monétiser : soit avec les AdSense, soit en redirigeant les visiteurs vers des sites pornos, soit pour capter les courriels à des fins de phishing ou autres...

Le journaliste, Stuart Corner (qui répète telle quelle l'info d'IpWalk), rapporte le cas de Disney, qui compterait plus de 1 500 variantes à lui seul !
For only Disney-related .com domain names, Ipwalk found over 260 typo variations of the popular "disneychannel.com", owned by DomainCar, all of them leading to ad pages. "The actual number is bound to be much higher, since the examination used a limited set of typos," it noted. "Additionally, 957 domain names contained the word 'disney', and 338 domain names contained the test set of seven 'disney' typos."
Juste pour faire un exemple avec dysney.com :

À noter la subtilité de cette page, où l'on vous prévient seulement que ce nom a été réservé, sans plus. Mais en attendant, il est fort probable qu'en ne trouvant pas ce que l'on cherche notre regard soit attiré par l'une des annonces et que notre curiosité naturelle fasse le reste...

Ce qui est intéressant aussi, c'est de noter que ce système a toutes les apparences de la légalité. On vous prévient qu'aucun pourriel ne sera expédié depuis ce domaine, mais que si c'était le cas, il faudrait les prévenir immédiatement...

Quant à Dotzup, autre acteur de ce marché, la lecture de leur manifeste nous éclaire encore plus sur ce désir de faire du business avec les typos tout en restant dans la légalité :
  • Notice the absence of Trademarks
  • Notice the absence of Pending Deletes
  • Notice the absence of gambling, adult, offensive, or obnoxious
Tout en précisant : « Notice that we do very nicely with misspells. » (en gros, Observez que nous faisons de bonnes affaires avec les coquilles, sous-entendu : légalement). D'ailleurs, quand on voit les chiffres annoncés :

on comprend bien que l'affaire est juteuse et que mieux vaut essayer de légitimiser ce business plutôt que de s'enliser dans des procès sans fin.

Autre exemple : DomainSponsor, aujourd'hui Revenue.net, qui annonce un pactole de +5 milliards de pages affichées par mois sur son réseau :

Over 5 billion impressions per month ! Pour imaginer le C.A., vous n'avez plus qu'à tenter d'appliquer la formule Google... :-)

Alors voilà, si Microsoft s'en mêle, comme le souligne l'article, c'est le commencement de la fin pour les typosquatters, en conséquence de quoi les gros fournisseurs de pub sur les pages parking de domaines vont s'en ressentir, notamment Sedo et Google :
Microsoft’s initiative could be the beginning of the end for typo-squatting, which in turn could hurt providers of ad pages such as Sedo and Google who would lose exposure of their ad pages
Dans un autre registre, Sedo semble vouloir se démarquer totalement :
As advertiser awareness of direct navigation continues to rise, value will be concentrated in domains that offer an attractive advertising platform-- namely, category-owning, commercially-oriented generic domains-- at the expense of domains where most businesses would not want to see their advertisements-- eg, typos and potential TM domains.
de même que DomainCar :

Our system finds pre-owned, usually expired and preregistered domains using computer formulas. We don't look at each domain we register. If a domain we have affects you or your trademark dont't hesitate to contact us so we can resolve the issue immediately.
* * *
Affaire à suivre, donc, que cet autre conflit potentiel entre les intérêts respectifs de Google et Microsoft, qui en a probablement marre d'être toujours à la traîne...

D'autant plus qu'il est étonnant de constater que les plus gros enregistreurs de noms de domaine génériques (avec ou sans coquilles) sont ... les Registrars, c'est-à-dire les centres d'enregistrement eux-mêmes ! Comme le mentionne Domaine.info :
D'autres personnes (spécialement les Registrars : bureaux d'enregistrement) ont su voir la poule aux oeufs d'or et ont enregistré massivement tous les noms possibles et imaginables en .com à partir du moment où ils pouvaient venir à l'esprit de quelqu'un, dans la bonne ou mauvaise orthographe.
(...)
Les fameux Registrars : bureaux d'enregistrements. Plus de 70% des noms les plus génériques et intéressants vont directement dans la base des bureaux d'enregistrement pour être revendus ou exploités pour leurs qualités en tant que mots-clefs. Même s'ils ne sont pas aussi génériques et intuitifs que ceux en .com ou .fr, quelques clics par an suffiraient à amortir les frais d'acquisition. Le temps du premier arrivé premier servi est bien révolu. Il faudra désormais parler de : Premier Registrar venu, Premier Registrar servi !
Enfin, sur cette orientation vers la légalité, je reprendrai un exemple que fait l'AFNIC dans son avertissement sur les noms de domaine internationalisés (IDN) (qui date quand même de février 2003, je note au passage), à propos des problèmes juridiques susceptibles de se poser :
...parce que l'ouverture des noms « IDN » pourrait entraîner une vague de dépôts portant préjudice aux détenteurs de marques - ou simplement de noms « ASCII » traditionnels qui risqueraient ensuite de souffrir des nuisances causées par ces tiers en termes de captation de trafic par exemple (café.fr venant capter les visiteurs de cafe.fr).
en concluant sur quelques questions :
  1. Depuis plus de trois ans qu'il est possible d'enregistrer des IDN pour moins de 10 euros par an, pourquoi le titulaire de cafe.fr n'a-t-il donc pas enregistré café.fr ?
  2. Si l'on suit ce raisonnement pernicieux, qu'est-ce qui empêcherait cafe.fr de poursuivre aussi cafes.fr au motif des « nuisances causées ... en termes de captation de trafic » ?
  3. Dès lors que café.fr est en mesure de développer un site différent de celui de cafe.fr, en vertu de quel fondement juridique le second pourrait-il reprocher au premier d'avoir enregistré un nom de domaine, alors que lui-même aurait largement eu le temps et l'opportunité de « se protéger » ?
  4. Etc. etc., la liste n'est pas exhaustive...




[MàJ - 30-04-06] Un article long et détaillé écrit par deux journalistes du Washington Post est paru aujourd'hui sous le titre « Typed too fast? Google profits from your typo », qui confirme les faits :
The Washington Post found hundreds of active Web sites showing Google ads at addresses that appear to be misspelled variations of well-known company names, known as "typo-domains." Their owners are known as "typosquatters."
The Post generated roughly 100 random misspellings of "www.earthlink.net" and found 38 sites using variations of the Earthlink name "parked" at a Google-owned service called Oingo.com. All 38, which includes "dearthlink.net" and "rearthlink.net," serve Google ads.
Traduction rapide :

Fautes de frappe ? Google profite de vos coquilles
Le Washington Post a trouvé des centaines de sites Web actifs qui affichent des pubs de Google sur des adresses Web jouant avec les variantes orthographiques de noms de sociétés connues, les « typo-domains » aux mains des « typosquatters ».
Après avoir généré de façon aléatoire 100 variantes avec coquilles de « www.earthlink.net », nous avons trouvé 38 sites stationnés sur des pages parking hébergées par le service Oingo.com, contrôlé par Google. Sur ces 38 sites, qui comprennent des noms comme « dearthlink.net » and « rearthlink.net », tous affichent des pubs Google.

Quant au site Oingo.com, il renvoie ici :


preuve que la sémantique contextuelle de Google est bien au point, et dont le lien signalé sur le graphique renvoie à son tour vers le service « AdSense for domains » de la société.

Tags : , , , , , , , , ,

dimanche 5 février 2006

Google et le business des noms de domaine


Google et le business des noms de domaine

Avis aux lectrices et lecteurs : attention, billet marathon ! Celles et ceux qui auront le courage et la patience d'arriver jusqu'au bout gagnent ... toute ma reconnaissance :-)

1. Introduction aux related searches de Google
2. Le service AdSense for Domains de Google
3. La nouvelle ère du business sur Internet : la sémantique contextuelle
4. Explication
5. Du type-in au typo-in...

1. Introduction aux related searches de Google

Il y a quelques jours, le 1er février pour être précis, Olivier Andrieu annonçait dans ses actus l'apparition timide des recherches connexes de Google sur l'Internet francophone, en réponse à la syntaxe "define:". En quoi ça consiste ?
Vous saisissez dans l'onglet de recherche « define:[mot ou expression qui vous intéresse] », et Google vous propose plusieurs définitions correspondantes en affichant des termes connexes en haut de ses résultats. Exemple pour "traduction" :

Termes connexes affichés : "mémoire de traduction", "informatique et traduction", "traduction française des", "le logiciel de traduction", "services de traduction", "traduction automatique", "traduction renversee", "compétence de traduction", ces termes menant eux-mêmes à d'autres définitions.

On sent bien que les résultats en
français sont quelque peu hésitants, tant et si bien que Google vous renvoie à d'autres langues quand il ne trouve rien. Exemple avec "marketing" :

Aucun terme connexe n'est visualisé mais un choix de langues en option. Cliquez sur "anglais" et voici enfin les « related searches » :


Expressions connexes : "direct marketing", "marketing plan", "marketing mix", "marketing research", "search engine marketing", "viral marketing", "affiliate marketing", "internet marketing", "permission marketing", "database marketing".

Certes, la pertinence est plus affinée en anglais. Comme le note O. Andrieu (qui propose aussi une alternative), « les résultats semblent parfois moins heureux » en français, et il termine en posant la question suivante : « Ces infos sont-elles proposées pour la syntaxe "define:" uniquement en version bêta avant d'être élargies aux pages de résultats "classiques" ? Difficile à dire pour l'instant... »

C'est le seul point où je diverge avec lui, car à mon avis la prévision est facile, elle coule de source, même : toutes proportions gardées, c'est comme pour la grippe aviaire, la question n'est plus de savoir "si" ça va se produire, mais "quand" ! [Début]

* * *

2. Le service AdSense for Domains de Google

Google est d'ailleurs très avancé dans sa technologie sémantique, puisqu'il propose déjà cette fonctionnalité aux professionnels des noms de domaine, avec un service dénommé « Google AdSense for domains ».

Voyons de plus près de quoi il retourne.

Google propose aux gros centres d'enregistrement et aux gros détenteurs de noms de domaine, c.-à-d. qui gèrent des dizaines, ou plutôt des centaines de milliers de domaines, de les « monétiser » en personnalisant chaque landing page, c'est-à-dire la page où vous atterrissez lorsque vous faites une saisie directe (type-in) du nom de domaine dans la barre d'adresse.
Et si j'insiste sur l'adjectif gros, c'est tout simplement parce que si vous ne pouvez pas justifier d'un réseau de sites qui génère au moins 750 000 pages vues/mois, inutile de contacter Google !

La société de Mountain Vew se définit elle-même comme leader du secteur, en fournissant son service sur les pages de plus de 3 millions de domaines stationnés (parked pages), aux mains d'une vingtaine d'acteurs à peine qui se répartissent chacun un portefeuille allant de 100k à 500k domaines et plus...

Voici à quoi ressemble la page de résultats fournie par Google :

Par conséquent, en guise de contenu, pourtant largement prôné par Google, nous obtenons une page 100% « marketing sémantique », truffée de liens sponsorisés et de pubs contextuelles, qui sont à proprement parler la seule raison d'être de la page. De toute façon, 4 américains sur 5 ne font pas la différence entre liens organiques (ou référencement naturel) et liens promotionnels...

Donc, dans la série « faites ce que je dis, mais ne faites pas ce que je fais », pour Google, en-dessous de 750 000 pages vues par mois, c'est du spam, en-dessus c'est du commerce ! Big deals et gros sous, en espèces sonnantes et trébuchantes...

Juste une précision : je ne m'indigne pas sur le principe, en ce sens que je trouve tout à fait licite de gagner de l'argent avec les noms de domaine, je reproche juste le discours à deux vitesses. Mais c'est une autre histoire. [Début]

* * *

3. La nouvelle ère du business sur Internet : la sémantique contextuelle

Le temps est proche où les bannières, les programmes d'affiliation et d'échanges de liens divers feront partie des vestiges de la "civilisation Internet", définitivement supplantés par les publicités contextuelles et autres liens promotionnels, qui sont les chevaux de bataille, pour ne pas dire l'artillerie lourde, de Google, Yahoo, Microsoft, Miva, etc.

Une étude de WebSiteStory sur les taux de conversion nous donne déjà une indication (merci à Guide-Webmaster, qui m'a fourni la source) :

Ces taux de conversion s'appliquent aux quatre types de trafic générés sur Internet pour vous amener là où vous le voulez (ou là où on veut vous amener...), c'est-à-dire, en les prenant par ordre croissant :
  1. les hyperliens fournis par les bannières, les comparateurs de coûts, les affiliations, les liens référents, etc. : 0,96%
  2. les résultats fournis par les outils de recherche (OR) : 2,30%
  3. la navigation directe, qui regroupe les liens de courriels, les favoris et les saisies directes d'URL dans la barre d'adresse des navigateurs : 4,23%
Donc, première surprise, contrairement à ce qu'on pourrait croire, les OR ne se placent qu'au deuxième rang, en offrant un taux de conversion qui représente le double de 1, mais la moitié de 3, c'est-à-dire loin derrière la navigation directe, qui inclut essentiellement l'e-mail marketing, les signets et les "type-ins".
Il n'y a pas, à ma connaissance, d'études qui analysent précisément le segment « navigation directe », mais vraisemblablement l'e-mail marketing et les favoris - parmi les milliers de signets que chacun(e) accumule jour après jour, il devient de plus en plus difficile de retrouver le bon à la volée - ne sont qu'une part marginale, les "type-ins" se taillant la part du lion.

En français, on pourrait appeler ça la "saisie directe" de l'URL (généralement un .com) dans la barre d'adresse. Exemple pratique, tapez http:// (ou www.) type-ins.com :

type-in.com :

typeins.com :

typein.com :
Vous ne trouvez pas qu'à première vue trois de ces quatre pages ressemblent étrangement au modèle AdSense for Domains de Google (soit plus de 750 000 pages vues par mois) ? Qui dit mieux parmi mon très cher lectorat !
Mais la démonstration ne s'arrête pas là, que non... [Début]

* * *
4. Explication

Pour bien comprendre de quoi on parle, il faut lire attentivement un avis de bourse du mois de décembre dernier, qui analyse les bienfaits de la navigation directe pour justifier auprès de ses investisseurs la hausse (de 25 à 30 $) du price target de Marchex, société américaine cotée au Nasdaq.

La navigation directe y est divisée en trois grands volets :
  • la saisie directe de noms communs génériques ("generic" intent)
  • la saisie directe de noms de marque ("branded" intent)
  • la saisie directe de coquilles (mistake traffic, « when the user makes a "typo" when entering a URL address »)
Et les prévisions de développement sont florissantes, puisqu'elles font état de résultats qui vont plus que doubler entre le 2ème trimestre 2005 et le 4ème trimestre 2006 (Q = trimestre et q/q d'un trimestre sur l'autre) :

  • revenus générés par domaine : de 28,93 $ à 60,91 $
  • revenus annualisés par domaine : de 116 $ à 244 $
  • revenus générés par la navigation directe : de 6,4 à 15,2 millions de dollars
Dans un même temps, leur portefeuille devrait passer de 221 000 à 249 000 domaines...

Et Marchex de nous expliquer qu'à terme sa stratégie compte se démarquer notablement de celle des autres acteurs qui occupent la scène de la navigation directe, en créant du contenu et des sites que les internautes pourront trouver soit par la saisie directe, soit par leurs recherches dans les OR, le premier pas consistant à relooker la mise en page. Exemple de loanconsolidation.com :
Avant
Après
Une question, 1., et une remarque, 2. :
  1. l'ancienne version ne vous semble-t-elle pas familière ?
  2. l'évolution graphique est sensible, et ne doit certes rien au hasard :
puisque toutes ces pages ont en commun un élément, invisible en apparence mais omniprésent, c'est-à-dire qu'elles respectent la règle du triangle d'OR, ou Golden Triangle, qui énonce que l'oeil du visiteur se pose d'emblée sur la partie supérieure gauche de l'écran. (cliquer sur l'image pour l'agrandir dans une nouvelle fenêtre)

En gros, nous dit l'étude, l'attention immédiate se concentre sur une zone en forme de F majuscule, où l'oeil balaye en priorité de haut en bas la hampe du F à la recherche d'indices visuels (mots qui ressortent, marques connues, etc.), avant de se déplacer de gauche à droite lorsqu'il capte un signal pertinent. J'avais d'ailleurs commenté cette info en son temps, ici et .

Les auteurs de l'étude poursuivent leur analyse et ont prévu de publier les résultats détaillés dans un livre blanc, à suivre donc.
En attendant, d'ici à ce qu'ils s'avisent de monnayer les premières adresses qui apparaissent dans le F majuscule, il y a pas loin ! [Début]

* * *

5. Du type-in au typo-in...

À venir dans un prochain billet !
[MàJ - 25-04-06] Paru aujourd'hui :
Google et le business des noms de domaine - Du type-in au typo-in...
[Début]


Tags : , , , , , , ,