mercredi 21 novembre 2007

Noms de domaine, mots clés et typosquatting : quelles relations ?

Noms de domaine, mots clés et typosquatting : quelles relations ?

McAfee : rapport 2007 sur le typosquatting

Une étude confidentielle, menée conjointement par VeriSign et Zooknic en mars 2006, détaille les relations entre les noms des domaines enregistrés en .COM, .NET, .ORG et .TV (soit +90% des extensions génériques) et les mots clés qu'ils contiennent, selon un double axe d'analyse :
  • la popularité des mots clés en nombre de recherches
  • le prix de ces mots clés au PPC
Les principales conclusions étant qu'il n'y a pas de relation clairement établie entre la popularité d'un mot clé et son prix pour la pub en ligne.


Les plus demandés restant quoi qu'il en soit ceux qui caractérisent les activités plus communes sur le Web : la recherche, l'e-commerce, le divertissement (qui va de la musique aux films en passant par le sexe), les voyages, etc.

En outre, sur +3 000 mots clés et 25 millions de domaines analysés, il ressort que dans +94% des cas, les mots clés recherchés comprenant 1 seul terme se retrouvent dans les noms de domaine.


Voici les 20 premiers mots uniques et leur nombre d'occurrences respectives dans les noms de domaines (on retrouve plus ou moins les mêmes dans les 4 extensions analysées) :


Les termes à 2 mots caractérisent davantage le business (immobilier), la finance (crédits), la dimension locale et géographique (probablement liée à l'immobilier et aux vacances), les loisirs ou encore des phrases communes (on top, web sites, etc.) :


Idem pour les 3 mots :


Je rappelle que dans les tableaux ci-dessus, la colonne de gauche représente le classement de ces termes sur les 3000 analysés, et celle de droite le nombre de noms de domaines dans lesquels ils sont présents.

Par ailleurs, en sachant que l'étude a porté très exactement sur 25 049 980 domaines, ça permet de calculer les pourcentages pour les puristes. Exemple : "real estate" est présent dans 0,6% de l'échantillon.

À comparer avec les 20 mots que l'on retrouve le plus fréquemment mentionnés dans les brevets et marques américains :
  1. AMERICA(N)
  2. WORLD(S)
  3. COMPANY(IES)
  4. INTERNATIONAL
  5. HOME(S)
  6. NEW
  7. SYSTEM(S)
  8. LIFE(VES)
  9. SOLUTION(S)
  10. CENTER(S)
  11. BUSINESS(ES)
  12. PLUS
  13. POWER(S)
  14. NETWORK(S)
  15. SERVICE(S)
  16. GROUP(S)
  17. CLUB(S)
  18. HEALTH
  19. CARE(S)
  20. MANAGEMENT
Source : Quensis.

Autre relation que je vois, celle de l'augmentation du nombre de termes dans les noms de domaine, qui semble aller de pair avec l'augmentation du nombre de mots clés saisis dans les requêtes de recherche, dont la taille s'allonge au fil des ans : de 1,2 mot/requête en 1998 à 3,3 en 2006 selon Yahoo!


Idem pour les noms de domaine, puisque selon Bob Martin :
...the area of the market with the highest speculation and overheating are on names that are three or four words long.

... le secteur du (second) marché où la spéculation s'enflamme, c'est sur les domaines contenant 3 ou 4 mots clés.
[Début]
* * *

Cet extrait est tiré d'un article intitulé Typo.com, qui nous permet ainsi une transition transparente vers le dernier point de cet article, la relation entre mots clés, noms de domaine et typosquatting.

Nous savons en effet que les mots clés sont au cœur d'un immense marché sur Internet, qui va des outils dédiés aux bidonneurs en tous genres, en passant du type-in au typo-in...

L'occasion m'en est donnée par la parution du rapport 2007 de McAfee sur l'état du typo-squatting, indiquant que selon une Agence gouvernementale américaine, 8,65% au moins de l'ensemble des domaines enregistrés le sont sous de faux noms ou avec des informations incomplètes, ce qui facilite les différentes pratiques de typo- et cyber-squatting.

Parmi les principaux résultats de l'étude (qui a analysé 1,9 million de variantes typographiques de 2 771 sites Web connus, en débusquant ainsi 127 381 personnes suspectées d'être des typo-squatters) :
  • L'internaute lambda qui commet une erreur typographique de saisie a 1 chance sur 14 d'atterrir sur une URL typosquattée
  • Les 5 catégories de sites les plus touchés sont les jeux (14,0%), les compagnies aériennes (11,4%), les principaux sites de média (10,8%), les sites porno (10,2%) et ceux liés aux technologies et au Web 2.0 (9,6%).
  • Les sites d'enfants sont particulièrement ciblés par les typo squatters (sur MySpace également, plus de 60% des pubs affichées seraient "à risque")
  • Idem pour les cyber-consommateurs
  • Contrairement aux idées reçues, le taux de sites pornos parmi les sites typosquattés n'est que de 2,4%, en nette amélioration par rapport à de précédentes études
  • L'usage croissant du domain tasting est un facteur significatif de la croissance rapide du typosquatting
  • Hors États-Unis, les pays les plus touchés par ce phénomène sont le Royaume Uni (7,7%), le Portugal (6,5%), l'Espagne (5,9%), la France (5,4%) et l'Italie (4,1%) ; les moins touchés sont les Pays-Bas (1,5%), Israël (1,1%), le Danemark (1,0%), le Brésil (0,9%) et la Finlande (0,1%).
  • Les cinq sociétés pratiquant le parking de domaines que préfèrent les typosquatters sont Information (28,5%), Hitfarm (11,3%), Domainsponsor (2,9%), Sedo (2,5%) et GoDaddy (2,3%) : le Top 5 représente 47,5% des squatters recensés par l'étude.
Parmi les catégories les plus squattées, on retrouve bien sûr un peu les mêmes que celles identifiées plus haut pour d'autres raisons :


Voilà. L'étude est particulièrement fouillée, je vous y renvoie. Il y aurait encore beaucoup à dire sur tout ce qui précède, mais le billet est assez long comme ça, je crois que ça suffira pour aujourd'hui. :-) [Début]


Partager sur Facebook

, , , , , , , , ,

Google ajoute des noms de domaine

Google ajoute des noms de domaine

Billet révélateur de ResourceShelf sur certains noms (qui s'ajoutent à ceux-ci) récemment réservés (et récupérés, me suggère Tom en commentaire) par Google :

gtaxes.com (plus les extensions .net et .org)
foogleaddon.com
technicage.com
googlesecret.com
logiquate.com
macroslash.com
nolimitdvd.com (celui-là aussi, il va faire jaser...)

gbeam.org
gbriefcase.org
gcentral.info
gmeet.net
gnoogle.com
google-gmail.com
google-labs.com
google-labs.net
google-search.com
googleblog.info
googlebux.net
googlecalendar.info
googlecalendar.net
googlefinance.com
googlefind.net
googlegmail.com
googlegroups.info
googlehelp.info
googlehelp.net
googlelabs.org
googlelocal.org
googlephotos.info
googleserchengine.com
googleshopping.com
googlesms.info
googlesms.net
googletv.info
googleus.com
googleus.net
googlewebapis.net
gsearch.info
gsend.org
gshopping.info
gshopping.net
gsites.info
gsites.net

Plus toute la série Android...

androidalliance.com
androidalliance.net
androidalliance.org
androiddevice.com
androiddevice.net
androiddevice.org
androiddevices.com
androiddevices.net
androiddevices.org
androidfederation.com
androidfederation.net
androidfederation.org
androidhandset.com
androidhandset.net
androidhandset.org
androidhandsets.com
androidhandsets.net
androidhandsets.org
androidmobile.com
androidmobile.net
androidmobile.org
androidphone.com
androidphone.net
androidphone.org
androidphones.com
androidphones.net
androidphones.org
androidplatform.com
androidplatform.net
androidplatform.org
androidsdk.com
androidsdk.net
androidsdk.org
androidsoftware.com
androidsoftware.net
androidsoftware.org
androidtechnology.com
androidtechnology.net
androidtechnology.org

Via WebProNews. Je vous laisse les interprétations connexes...


Partager sur Facebook

P.S. Personnellement, celui qui m'intrigue le plus est Gbeam. Est-ce que ce serait lié à la notion de Worldbeam selon Google ? Wait and see...

, , , , , , , , , ,

mardi 20 novembre 2007

Liens Adscriptor du 20 novembre 2007

Liens Adscriptor du 20 novembre 2007

Beaucoup de travail, beaucoup de fatigue, beaucoup de nouveautés dans l'actu foisonnante du Web, donc impossible d'être suffisamment réactif pour tout traiter comme il se devrait.

Je me contenterai de vous signaler quelques événements marquants, selon moi, en insistant sur le fait que c'est juste une invitation à l'approfondissement.

En commençant avec Kindle par Amazon, des analyses et des questionnements, de Francis Pisani, Mathew Ingram et Michael Parekh.



Un dispositif de plus à gérer. Pour tout savoir sur Kindle, c'est ici. Et pour tous les amoureux du papier, il y en a encore, c'est par là...

* * *

En continuant avec 23andMe, société cofondée par la femme à Sergey, qui tire son nom original des 23 paires de chromosomes, et moi et moi et moi. Faut-il en avoir peur ?

Voir les interviews par Kara Swisher.




Analyser son génome pour 999$ à la recherche des secrets de son ADN, et après ? Il suffit juste d'un peu de salive. C'est où qu'on crache ?

En attendant d'en savoir plus chez Zorgloob (sur ça aussi ?), que cela ne nous empêche pas de blogother pour la bonne cause !


* * *

Et pour terminer, un petit comparatif synoptique des acquisitions récentes de GYM :


Via Tim O'Reilly. Une belle illustration pour Webilus, remarquable initiative de Frédéric Cozic. ;-)

Bon approfondissement.


Partager sur Facebook

P.S. Dans le sillage de mon billet d'hier, la folie n'est pas encore retombée...


C'est ainsi que pour la première fois depuis le début de ce blog, je viens de franchir la barre des 1 000 visiteurs quotidiens sur une semaine. Avec une moyenne de 1 125 visiteurs et 1 406 pages vues, pour un temps individuel de lecture supérieur à 1 minute (1'05''), sur les 7 derniers jours.

, , , , , ,

lundi 19 novembre 2007

La folie Facebook : le JT 20h de France 2 et Google boostent Adscriptor


Hier soir en consultant mes stats j'ai eu la surprise de voir plus de 2500 visiteurs en fin de journée, chose qui ne m'était jamais arrivée. Or le dimanche étant habituellement moins fréquenté que les autres jours, et tout ayant commencé normalement, j'ai souhaité approfondir.

Le pic a eu lieu entre 20 et 21h, donc il était évident qu'il s'était passé quelque chose, mais quoi ?


On n'enregistre pas sans raison 1 439 visiteurs et 1 710 pages vues dans l'heure, soit respectivement une moyenne de 24 visiteurs et 28 pages vues à la minute !

Car même si ces stats vont faire sourire le Chauffeur, moi elles m'ont fait sursauter, croyez-moi ! Ça ferait des journées à près de 35 000 visiteurs et plus de 41 000 pages vues, c'est énorme !

J'ai donc cherché à comprendre et j'ai trouvé la réponse ici. Avec le son et l'image :

Un reportage intitulé « La folie Facebook », annoncé en ouverture du 20h et diffusé très exactement entre 20h23'09'' et 20h25'28''.


Deux minutes qui ont généré dans la foulée 1400 visiteurs sur mon blog, à 99% par l'intermédiaire de Google !

Ce qui témoigne déjà du poids de la concurrence...

La deuxième chose qui m'étonne, c'est que les gens ont cherché Facebook sur Internet alors que le JT était encore en cours, il faut donc croire qu'ils ont l'ordi à côté de la télé, en simultané, même.

Quoi qu'il en soit, ça donne une idée de la puissance du pouvoir de suggestion de la télé, qui n'a d'égale que sa nature éphémère : le temps de compter jusqu'à 60 (minutes), puis on passe à autre chose. L'important c'est de zapper.

Et dire qu'il y a un mois et demi, je n'avais pratiquement jamais rien écrit sur Facebook ! En tout cas rassurez-vous, j'ai encore quelques idées de billets en réserve sur le phénomène du moment. Le temps que ça dure. Puisqu'il est probable que bientôt on passera à autre chose.

Au grand cirque de l'Internet, ce qui compte c'est que s'alternent les attractions, dans tous les sens du terme. ;-)


Partager sur Facebook

, , , , , ,

dimanche 18 novembre 2007

Microsoft dans le Top 2, cherchez l'erreur


Selon Reuters, Kevin Johnson, président de la division Plateformes & Services chez Microsoft, vient de déclarer que d'ici 3 à 5 ans, sa société se fixait pour but d'être dans le Top 2 des régies publicitaires sur le Web et d'augmenter ses parts de marché aussi bien en termes de pages vues que de temps passé par internaute sur ses produits/services et dans la recherche.

Et d'avoir programmé le plan "10, 20, 30, 40" :
  1. 10% des pages vues, contre 6% actuellement ;
  2. 20% du temps passé par l'internaute sur les sites de Microsoft, contre 17% actuellement ;
  3. 30% des parts de marché dans la recherche, contre moins de 10% actuellement ;
  4. 40% des parts de marché dans la publicité en ligne, contre 6% actuellement.
Or si les 2 premiers points ne semblent pas irréalisables, les 2 derniers posent problème. Un gros problème !

Côté publicité, je ne sais pas si l'acquisition d'aQuantive ou le partenariat avec Facebook vont suffire à M$ pour réaliser ses ambitions, à savoir encaisser 40 cents sur chaque dollar de pub dépensé en ligne, mais à la lumière de certaines analyses, c'est pas gagné d'avance...

Quant aux 30% des parts dans la recherche sur Internet, en l'état actuel des choses, ça paraît franchement hors de portée pour Microsoft. À moins de racheter Yahoo!...

Ce doit être pour cela que Johnson a répondu à une analyste :
If you look at the landscape of other competitors or other companies in this area, not only do we have the technology, research and development capability to deploy, but (we have) our willingness to invest for the long term...

Si vous observez le panorama de nos compétiteurs et des autres compagnies dans ce domaine, non seulement nous possédons la technologie à déployer et les capacités nécessaires en termes de recherche et de développement, mais (nous avons) aussi la volonté d'investir sur le long terme...
Investir dans quoi ? That is the question !


Via Agency Spy.

Car il en faudra plus que tenter de booster son image ou d'injecter entre 1,5 et 1,7 milliard de dollars cette année dans de nouveaux data centers ou dans leur parc de serveurs : pour autant qu'ils en aient, ce n'est certes pas cela qui leur garantira la pertinence, l'exhaustivité et la fraîcheur des résultats sur MSN-Live...

Via Frank Watson. Lien connexe.


Partager sur Facebook

, , , ,

mercredi 14 novembre 2007

Traduction et Google, l'apprenti traducteur

Traduction et Google, l'apprenti traducteur

Selon ses intemporels et ses bonnes habitudes, Google innove aussi dans la traduction automatique en conférant qualité, simplicité, rapidité, gratuité, universalité, originalité et interactivité à son système.


Dans innovation il y a nouveauté, et la présentation en bitexte (c'est-à-dire avec le texte cible présenté en regard du texte source) est une exclusivité Google. Il se peut que d'autres systèmes s'y mettent, ce serait même souhaitable, comme avec un autre concept intéressant, celui de Systran box, où il n'y a même plus besoin de cliquer !

Mais là encore, Google est précurseur et ne dément pas son originalité. Ni son désir d'interactivité puisque chacune des traductions automatiques que fournit le système peut être améliorée par l'internaute.

Dans la version bitexte, une fenêtre s'ouvre en bas du texte traduit lorsque l'on clique sur le lien "proposer une meilleure traduction", où chacun peut intervenir et saisir sa propre version d'un passage choisi.

Google prévient : nous utiliserons vos suggestions pour améliorer la qualité de nos traductions lors de prochaines mises à jour de notre système (We'll use your suggestion to improve translation quality in future updates to our system).

Et soyons sûr que nos suggestions seront passées au crible... Idem pour les traductions de pages Web :


où en sélectionnant une portion traduite, une fenêtre de suggestion propose l'original correspondant et la possibilité d'intervenir.

Sur la qualité maintenant, j'entends déjà une levée de boucliers. On pourra toujours m'opposer quantité d'anecdotes plus ou moins croustillantes sur les balbutiements du système. Il n'empêche que les capacités apprenantes de Google, traducteur automatique sont déjà en place (Google qui ne rechigne d'ailleurs pas à faire appel aux bonnes volontés), et que son approche statistique lui a déjà permis de devancer des compétiteurs de poids (IBM, Systran, etc.) et d'avancer à pas de géant dans la TA.

Jean Véronis, qui s'y connaît, nous dit en commentaire de ce billet que l'approche retenue par Google souffre deux écueils :
1) Elle est très sensible à la quantité et au type de textes parallèles disponibles. pour certains couples de langues, comme allemand-français, il y en a très peu (essentiellement des textes institutionnels comme ceux de l'ONU ). L'apprentissage statistique est donc nécessairement mauvais.

2) Elle procède par apprentissage de "n-grammes", c'est-à-dire de suites de n mots consécutifs (trigrammes, etc.). Ca ne marche pas trop mal dans le cas des langues dites à ordre fixe (français, espagnol, anglais, etc.), mais beaucoup moins bien sur les langues à ordre variable (allemand, russe, etc.).
Pour autant, de nombreux autres champs de recherche sont parcourus, comme l'explique le rapport final du Machine Translation Working Group sur les technologies “MINDS”, acronyme de Machine Translation (MT), Information Retrieval (IR), Natural Language Processing (NLP), Data Resources (Data) & Speech Understanding (ASR).

Notamment avec la traduction automatique multimoteur (Multi-Engine Machine Translation), qui consiste à tirer parti de différentes approches et différents modèles, puisqu'aucune approche ni aucun modèle seuls ne sont la panacée. D'où la nécessité de faire levier sur la diversité des recherches pour faire avancer la TA (...there has recently been a surge in interest in approaches that can synthetically combine different MT engines operating on a common input into a “consensus” translation which surpasses all the individual MT engines in its quality).

Un domaine où Google nous réserve probablement encore bien des surprises...


Partager sur Facebook

P.S. Si vous voulez tester Google traduction :



, , , ,

jeudi 8 novembre 2007

Extension de la lutte ... au domain tasting - kiting

L'ICANN, alarmée par la pratique du domain tasting, avait commandé un rapport sur la question au GNSO, publié par l'Organisme le 4 octobre dernier.

Cette pratique, d'abord dénoncée par Bob Parsons il y a 3 ans..., fut qualifiée ensuite par le président de GoDaddy de domain kiting, voir ici pour les nuances...

En gros, ça revient à enregistrer des domaines, à les tester pour voir leur potentiel en navigation directe (tasting), à les monétiser s'ils valent la peine (kiting) et à les rendre de nouveau disponibles à l'enregistrement dans le cas contraire. Sans rien payer, bien sûr, dès lors qu'ils sont restitués durant les cinq premiers jours, puisqu'ils sont interceptés en tout début de processus :


En mai 2006, j'avais publié des chiffres sur l'ampleur du bidonnage, mais le rapport nous montre qu'ils ont été pulvérisés depuis, puisque nous passons de près de 30 millions de domaines spéculés fin 2005 à près de 60 millions aujourd'hui :


Comme quoi le business est florissant, et si ça continue le nombre de domaines spéculés dépassera ceux régulièrement enregistrés, car on voit bien sur le graphique que les deux courbes ne vont pas tarder à se rejoindre !

L'envol du tracé permet également de localiser avec précision l'époque où le phénomène a démarré, qui correspond très exactement au moment où Parsons dénonçait (lettre datée du 8 octobre 2004) Its Your Domain d'abuser de sa position de registreur (et les systèmes mis en place par VeriSign) pour bénéficier du délai de grâce de 5 jours (AGP - Add Grace Period) et rediriger le trafic vers des sites monétisés par la pub. Rien de nouveau, quoi. Même Google s'est mis depuis à la monétisation des domaines...

Donc si l'on part hypothétiquement de 0 en octobre 2004 pour arriver à 60 millions de domaines trois ans plus tard, ça nous fait quand même des moyennes annuelles et mensuelles tout à fait respectables !

Mis à part DirectNic (Intercosmos Media Group, Inc.), qui semble avoir renoncé à spéculer en fin d'année dernière(!?), le trio de tête des bidonneurs en chef, avec plus de 9 millions de domaines enregistrés par mois puis radiés pendant l'AGP, est toujours le même : Capitoldomains, LLC - Domaindoorman, LLC - Belgiumdomains, LLC.


[MàJ - 28 novembre 2007] Les trois sociétés mentionnées ci-dessus viennent d'être attaquées par Dell, pour cause de cybersquatting...

* * *

Its Your Domain est encore dans la course, en 9e position...

Dans ces conditions, l'OMPI a beau jeu de rappeler que « Les pratiques qui permettent de "tâter" un nom de domaine risquent de transformer le système des noms de domaine en un marché essentiellement spéculatif. »

D'où les confusions longtemps et consciemment entretenues, à tort, avec le second marché des noms de domaine, alors qu'il y a un parallèle évident avec le marché immobilier, les domaines étant d'ailleurs considérés comme pur real estate par les anglo-saxons, dont nous avons beaucoup à apprendre en la matière. Car eux savent faire la part des choses et ne se gênent pas pour critiquer la CADNA et ses lacunes (doux euphémisme)...

Pour autant la CADNA a réagi en proposant ses solutions au domain tasting, dont la plus évidente et pratique à mettre en œuvre : supprimer l'AGP.

L'étude - à lire dans son intégralité - identifie également les parties qui subissent davantage les répercussions négatives de ces pratiques :


Des chiffres qui semblent corroborer les conclusions de l'OMPI, puisque 80% des propriétaires de droits seraient concernés. J'ai toute une série de billets auxquels je pense là-dessus, mais l'actualité et mille autres occupations ne me laissent guère le temps.

Donc, maintenant que l'ICANN a reçu les observations, critiques et préconisations de la part de nombreuses parties prenantes, notamment sur la longue traîne des noms de domaine, les prochaines étapes pourraient consister (selon les recommandations du GNSO, page 32 du rapport) à :
  1. passer en revue et évaluer les effets des activités identifiées, liées au domain tasting
  2. déterminer si ces effets justifient la prise de mesures destinées à empêcher la pratique du domain tasting
Dans les mois qui viennent, nous verrons la réponse que Peter Dengate Thrush donnera à ces questions...


Partager sur Facebook

, , , , , ,