Adscriptor: Web sémantique

Affichage des articles dont le libellé est Web sémantique. Afficher tous les articles

samedi 30 août 2008

Le graphe social selon Google

Le graphe social selon Google

Après le graphe social de Facebook, voici celui selon Google !

Google Profile now supports Social Graph API, par Chris Messina sur Vimeo.

Ainsi j'ai découvert que nous pouvions tous avoir un profil sur Google, voici donc le mien !

Vraiment, Google profileur en série se ... profile de plus en plus à l'horizon.

Pour autant, jusqu'à ce jour, il me semble que ce "profil Google" était plutôt resté dans l'ombre, mais comme le souligne justement Frederic Lardinois, si Google commence à booster son API, il pourrait éventuellement s'en servir pour présenter "notre profil" comme l'élément central, ou, si vous préférez, comme le référentiel principal de notre identité numérique.

Je ne sais pas trop vers quoi tout ceci peut nous mener, mais les implications pourraient vraiment être énormes, comme toujours avec Google...

Car même si a priori toutes les données prises en compte sont par définition "publiques", une fois qu'elles seront centralisées en quantité (voir ici), cela joint aux phénoménales capacités de Google d'indexer tout ce qui bouge, je vois encore difficilement qui pourra concurrencer la plus grande superpuissance de la planète ! À moins d'un changement radical de culture, mais c'est pas encore pour demain...

Car jamais autant de données "publiques" n'auront été réunies sur - et autour - chacun de nous, et soyez sûrs que Google sait s'en servir...

En attendant, si vous voulez suivre la démonstration :

Jean-Marie Le Ray

Partager sur Facebook

Actualités, graphe social, Google, Facebook, Web sémantique, profilage, protection des données, confidentialité, vie privée, gestion de l'identité, identité numérique, identité 2.0

samedi 31 mai 2008

10 technologies de rupture pour 2008 - 2012

10 technologies de rupture pour 2008 - 2012

Gartner vient de lister les 10 technologies de rupture pour 2008 - 2012 :

les processeurs hybrides et multi-cœurs (Multicore and hybrid processors)
la virtualisation et l'informatique distribuée, reconfigurable (Virtualisation and fabric computing)
les réseaux sociaux et les logiciels sociaux (Social networks and social software)
le Web dans les nuages / le Web comme plateforme (Cloud computing and cloud/Web platforms)
les mashups / applications composites orientées Web (Web mashups)
les interfaces utilisateur (User Interface)
l'informatique ubiquitaire (Ubiquitous computing)
l'informatique contextuelle / mobile (Contextual computing)
la réalité augmentée (Augmented reality)
le Web sémantique (Semantics)

À comparer avec les prévisions de l'année dernière, en anglais, et en français :

Liste à compléter par cette déclaration de Ray Ozzie : Open Source a More Disruptive Competitor than Google...

Ça vous inspire quoi ?

Jean-Marie Le Ray

Partager sur Facebook

P.S. Avec ce billet, Adscriptor se met sur son 31 ! Je m'étais promis de faire un billet par jour au mois de mai, celui-ci est le 31^e, donc en moyenne, nous y sommes ! Bof, 1 billet par jour, ça n'a pas l'air, mais croyez-moi, c'est du boulot. Enfin, maintenant que l'été arrive, on va ralentir...

De plus c'est parfaitement assorti avec mon classement de juin :-)

Actualités, réseaux sociaux, Web sémantique, Gartner, rupture, Web 2.0, Web 3.0, Internet

samedi 15 mars 2008

Scoop Adscriptor - Bloc contre bloc, l'internaute au centre...

Pourquoi Microsoft ne renoncera jamais à Yahoo!, et pourquoi Google craint-il cette fusion ?

* * *

1. Background
2. « Data transmission events » : les événements qui déclenchent la collecte de données "privées" sur les internautes...
3. Analyse de l'étude New York Times / comScore
- Le scoop d'Adscriptor
4. Analyse des écarts chiffres/tableaux
5. La part de DoubleClick dans Google / La part de Yahoo! dans Microsoft
6. Comparaison Microsoft + Yahoo! / Google + Doubleclick
7. Conclusion

* * *

1. Background
Facebook à part, mon scénario de guerre froide est en passe de se réaliser. Depuis près de deux ans, je n'ai perdu aucune occasion d'évoquer l'acquisition de Yahoo! par Microsoft, y compris quand personne d'autre n'en parlait, notamment en faisant remarquer dans une analyse de GYM :

Google « caracole en tête, les deux autres suivent, tant bien que mal. Une troisième place qui n'est certes pas dans la nature de Microsoft. »

Chose explicitement confirmée par Microsoft, quelques mois plus tard en programmant le plan "10, 20, 30, 40" :

10% des pages vues, contre 6% actuellement ;
20% du temps passé par l'internaute sur les sites de Microsoft, contre 17% actuellement ;
30% des parts de marché dans la recherche, contre moins de 10% actuellement ;
40% des parts de marché dans la publicité en ligne, contre 6% actuellement.

Ce que je commentais de la façon suivante :

...si les 2 premiers points ne semblent pas irréalisables, les 2 derniers posent problème. Un gros problème !
Côté publicité, je ne sais pas si l'acquisition d'aQuantive ou le partenariat avec Facebook vont suffire à M$ pour réaliser ses ambitions, à savoir encaisser 40 cents sur chaque dollar de pub dépensé en ligne, mais à la lumière de certaines analyses, c'est pas gagné d'avance...
Quant aux 30% des parts dans la recherche sur Internet, en l'état actuel des choses, ça paraît franchement hors de portée pour Microsoft. À moins de racheter Yahoo!...

Nous y sommes ! Or nous allons voir combien l'acquisition de Yahoo! est cruciale pour Microsoft, moins dans la recherche que dans la publicité, et moins encore dans la publicité que dans le ciblage comportemental.
J'ai déjà tenté d'analyser ce qu'est le ciblage comportemental, sommairement pour Facebook, et de manière beaucoup plus détaillée pour Google : dans la longue analyse que j'ai consacré en 2006 à la stratégie de Google (qui n'a pas bougé d'un pouce), notamment dans la description de l'approche 100% fichés, où je concluais ainsi :

Par conséquent dans cette logique, à terme plus ou moins rapproché, la prochaine étape consistera très probablement à s’éloigner de la catégorisation des annonces pour passer à leur individualisation. En bref :
fini les AdSenses ciblés, vive les AdSenses personnalisés !

Une (r)évolution qui me semble inéluctable, vu les ambitions affichées par Google : à partir du moment où la firme possède une énorme quantité d’informations sur vous et peut en extraire un profilage systématique et significatif, qu’est-ce qui l'empêchera de vous proposer des AdSenses en fonction de vos préférences ?

Ensuite dans Google, profileur en série, où j'essaie d'expliquer pourquoi sur Internet, la gratuité n'est pas gratuite, mais que sa contrepartie est la collecte de données personnelles, avec comme pendant "naturel", le profilage...
Ceci dit, jusqu'à aujourd'hui, toutes ces analyses n'étaient que des conjectures, vraisemblables certes, mais sans "données réelles" pour les étayer. Or maintenant nous disposons d'un échantillon significatif de ces fameuses données, grâce à une étude commanditée à comScore par le New York Times, dont Louise Story nous raconte ... l'histoire ! [Début]

* * *

2. « Data transmission events » : les événements qui déclenchent la collecte de données "privées" sur les internautes...
Permettez-moi tout d'abord de féliciter les équipes qui ont voulu, conçu et mené à bien cette étude, cruciale pour comprendre les véritables enjeux - économiques, mais surtout de pouvoir - qui se cachent (pas tant que ça quand même) derrière les grandes manœuvres auxquelles on assiste en ce moment, et ce n'est que le début...
Dans la suite du billet, je ne parlerai que d'événements pour abréger, mais à chaque fois il faudra bien comprendre qu'il s'agit d'événements déclenchant la collecte de données "privées" sur les usages de l'internaute. Citons, à titre d'exemple, les données collectées :

lors des recherches de l'internaute ;
lors de ses achats ;
lorsqu'il clique sur une pub ;
lorsqu'il s'enregistre sur un service ;
grâce aux cookies, etc.

Tout ça permettant à qui les possède en bout de chaîne d'obtenir des informations précises sur nos habitudes, nos intérêts, et ainsi de suite. Le graal des publicitaires et des marketers de tout poil, en quelque sorte !
On pourra toujours s'interroger pour savoir si ces données sont collectées à notre insu ou non, bien que je me demande franchement quel internaute naviguant régulièrement sur Internet ne serait pas encore au courant !?
Par ailleurs, menée aux États-Unis en décembre 2007 sur le trafic imputable aux quinze plus gros acteurs américains de l'Internet, je ne doute pas que les résultats de l’étude puissent être extrapolés au Web mondial, puisque de toute façon la tendance est irréversible, autant le savoir...
Mais ce que je vois de véritablement nouveau dans cette étude quantitative, ce sont les proportions. Énormes comme dirait le Chauffeur... Inouïes, et qui nous réservent bien des surprises. Vous êtes prêts ? Accrochez-vous ! [Début]

* * *

3. Analyse de l'étude New York Times / comScore
- Le scoop d'Adscriptor
Louise Story nous fournit deux sources chiffrées de l'étude : l'une sur l'article du New York Times, l'autre sur son blog. Or la première chose qui m'a sauté aux yeux, c'est que ces deux sources, fournies par la même personne, divergent !
Sur son blog, une source renvoie au tableau suivant : .../images/2008/03/04/technology/Dec_accesspoints.jpg, où l'on voit clairement que Google a collecté globalement sur le mois de décembre 2007 (uniquement aux US), 1 645 événements par personne !

C'est sans équivoque :

Or dans la source suivante, modifiée, le "score" de Google, à critères identiques, est tombé à seulement 578 événements par personne, soit 1 067 de moins !

Tous les autres chiffres sont inchangés :

Donc la question est la suivante :

Pourquoi en moins d'une semaine (entre le 4 et le 10 mars), le nombre d'événements imputables à Google est-il tombé à 578, chiffre mentionné dans l'article original et repris par les médias du monde entier ?

La réponse coule de source : parce qu'au 10 mars, jour de la publication de l'article sur NYT, Google ne possédait pas encore formellement DoubleClick, puisque l'aval de l'UE n'est arrivé que ... le lendemain !
Donc de toute évidence, la différence nous indique clairement quelle est la part de DoubleClick dans Google !
Mais là n'est pas la seule surprise. Car de même que les chiffres de l'article publié le 10 mars font l'impasse sur DoubleClick, ils ne prennent pas non plus en compte les 180 milliards de pubs servies par Atlas (Microsoft), comme l'indique Louise Story sur son blog (Atlas serves 6 billion ads per day...).
Et, surtout, les statistiques mentionnées dans NYT et reprises en boucle partout sur le Net ne correspondent pas aux chiffres des tableaux. [Début]

* * *

4. Analyse des écarts chiffres/tableaux
Voici d'abord les principaux chiffres fournis :

sur le mois, Yahoo! engrange 2 520 données uniques par visiteur et se classe en tête loin devant ses concurrents, Google arrivant en quatrième position (derrière MySpace et Fox Interactive Media) avec "seulement" 578 données ;
110 milliards d’événements uniquement sur les propriétés de Yahoo! (hors régie publicitaire étendue), soit 811 infos par utilisateur ;
336 milliards d’événements de données collectées uniquement sur les sites propriétaires (hors régie publicitaire étendue) des 5 premiers, que sont Yahoo!, Google, Microsoft, AOL et MySpace.

Or aucun de ces chiffres ne résiste à l'examen détaillé des tableaux !
Que j'ai réunis en un seul pour les besoins de mon exposé :

la ligne 2 indique la version du 4 mars incluant DoubleClick ;
la ligne 3, surlignée en jaune, correspond à la version publiée sur NYT le 10 mars ;
sur les lignes 2 et 3, la partie de droite correspondant à ligne 2 non surlignée / ligne 3 surlignée indique les chiffres qui n'ont pas changé entre les deux versions ;
ceux qui ont changé en ligne 2 sont graissés et correspondent à l'écart DoubleClick / Google ;
la colonne 3 surlignée a été ajoutée dans la version du 10 mars.

Analyse

Le chiffre 2 520 est donné en divisant la valeur en colonne 2 (Événements de collecte des données sur les sites Web + événements potentiels de collecte des données sur les réseaux publicitaires) par celle en colonne 9 (Total de visiteurs uniques), soit 399 544 000 000 / 158 573 000 = 2520.
Logiquement, les 811 infos par utilisateur annoncées devraient donc résulter de la division (valeur colonne 3) par (valeur colonne 9), mais il n'en est rien : 110 767 000 000 / 158 573 000 = 699, soit 112 de moins. D'où sort donc cette valeur de 811 ? Selon ValleyWag, ce serait le nombre de fois où Yahoo aura été informé du code postal de chaque internaute américain visitant ses sites en décembre 2007.
Idem pour les 336 milliards, censés être la somme des lignes 1, 3, 4, 6 et 8 en colonne 3. Résultat réel : 327 598 000 000, soit 8 402 000 000 événements de moins que les 336 milliards annoncés !

Donc, globalement, ça ne remet pas en cause le travail considérable fourni pour réaliser l'étude, mais je m'étonne que des résultats aussi fantaisistes aient fait le tour de l'Internet sans que personne, à ma connaissance, n'ait constaté qu'ils étaient pour le moins bizarres. Car soit ils sont vrais et les tableaux sont faux, soit les tableaux sont vrais et les chiffres sont faux. De deux choses, l'une !
Encore un cas d'école pour Gilles Bruno. Et non, l'asymétrie de la crédibilité dans l'information n'est pas morte... [Début]

* * *

5. La part de DoubleClick dans Google / La part de Yahoo! dans Microsoft
Donc, nous en arrivons maintenant à l'analyse des parts respectives de DoubleClick dans Google et de Yahoo! dans Microsoft.
A. La part de DoubleClick dans Google représente pour Mountain View un gain supérieur à 64,8%, déterminant dans les affichages publicitaires et les données collectées en conséquence :

168,364 milliards d’événements de données collectées en + sur le réseau global (sites propriétaires + régie publicitaire étendue) (soit 64,89% pour DoubleClick, contre 35,11% à Google seul) ;
1 067 événements de données collectées en + par personne (soit 64,86% pour DoubleClick, contre 35,14% à Google seul).

B. La part de Yahoo! dans Microsoft est encore plus décisive, puisqu’elle représente pour Redmond un gain allant des 3/4 dans les données collectées à près de 100% dans les affichages publicitaires !

348,204 milliards d’événements de données collectées en + sur le réseau global (sites propriétaires + régie publicitaire étendue) (soit 88,61% pour Yahoo!, contre 11,39% à Microsoft seul) ;
dont 283,426 milliards d’affichages plubicitaires en + en régie étendue (soit 98,18% pour Yahoo!, contre 1,82% à Microsoft seul) ;
2 165 événements de données collectées en + par personne (soit 75,3% pour pour Yahoo!, contre 24,7% à Microsoft seul).

Pas besoin de longs commentaires pour saisir combien sont substantiels les avantages, autant pour Google que pour Microsoft. [Début]

* * *

6. Comparaison Microsoft + Yahoo! / Google + Doubleclick

C'est là que les athéniens s'atteignirent !
À part la recherche et la vidéo, où l’avantage de Google est net avec respectivement +53,58% et +84,29%, aux États-Unis, toutes les moyennes mensuelles sont en faveur du conglomérat Microsoft + Yahoo!

+42,46% d’événements de collecte données sur le réseau (sites propriétaires + régie publicitaire étendue) (avant fusion) ;
+42,78% d’événements de collecte données par personne ;
+96,08% d’affichage d’annonces sur les sites ;
+54,19% en total de pages vues ;
+24,7% d’impressions en régie publicitaire (hors sites propriétaires) ;
+48% de visiteurs uniques ;
+ Atlas...

Plus le reste : car s'il est vrai que l'infériorité de Google dans l'affichage publicitaire peut être compensée par sa domination dans la recherche et la vidéo, Microsoft + Yahoo! ont déjà une forte position dominante dans le Webmail et l'IM, sans compter les parts de marché plus que majoritaires de Microsoft dans l'informatique "desktop", les suites bureautiques et la navigation sur le Web (IE 8 à venir).
Vous comprendrez mieux maintenant pourquoi Google s'inquiète d'une part, et pourquoi Microsoft ne renoncera jamais à Yahoo! de l'autre.
Et ce même si Google resterait le plus grand profileur post-fusion, puisqu'en fait il ne s'agit plus d'ajouter 2 520 + 355 (soit un total de 2 875 événements séparés avant fusion), mais de diviser la valeur de la colonne 2 (450 884 000 000) par celle de la colonne 9 (303 248 000), soit 1 487 événements, 158 de moins que Google. Donc, bien que tous ces événements ne soient ni utilisés ni utilisables, il restera toujours de quoi faire pour connaître les petits secrets de l'internaute... [Début]

* * *

7. Conclusion
En revanche moi je m'inquiète pour l'Europe ! Tout ce qui précède se joue dans le pré carré des américains, de même que la gouvernance de l'Internet, les noms de domaines, le cloud computing et bientôt l'Internet des choses, etc.
Donc souhaitons au moins bon vent à Quaero et Theseus dans le Web sémantique, dont l'inventeur du Web tout court, Tim Berners-Lee, nous assure qu'une nouvelle génération de produits pourrait détrôner Google.
Ne reste qu'un petit problème, à mon avis : tous les services innovants dans le Web sémantique, de Twine à Powerset, et la recherche (cf. Searchme), sont encore et toujours ... américains !
Il serait peut-être temps de créer des alternatives, ou non ? Dites-moi si je me trompe. :-) [Début]

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Microsoft, Google, Yahoo, GYM, Quaero, Doubleclick, Web sémantique, profilage, protection des données, confidentialité, vie privée

samedi 16 février 2008

Open Calais : Reuters nous rapproche du Web sémantique

Open Calais : Reuters nous rapproche du Web sémantique

[MàJ - 20 février 2008] « Les autorités européenne et américaine de la concurrence ont donné, mardi 19 février, leur accord sous conditions à l'acquisition du groupe britannique Reuters, connu comme une des principales agences de presse, par le canadien Thomson Corporation, actif sur les marchés de l'analyse juridique, fiscale et comptable. Le nouveau groupe sera l'un des plus grands fournisseurs mondiaux d'informations et de données. » (source : Le Monde)

Le 8 février, Devin Wenig annonçait à Tim O'Reilly que l'avenir de son groupe, Reuters, passait par le Web sémantique (ou Web 3.0 ?). Le lancement d'Open Calais a suivi cette interview de quelques jours.

En fait, il s'agit d'un service Web (technologie ClearForest, voir ici) capable de rattacher automatiquement au contenu que vous soumettez des métadonnées sémantiquement riches, en catégorisant et en liant vos documents à des entités (des gens, des lieux, des organisations, etc.), des faits (‘X’ travaille pour la société ‘Y’) et des événements (‘X’ a été nommé PDG de la société ‘Y’ le jour ‘J’). Ces métadonnées sont ensuite stockées dans une archive centralisée et vous sont retournées sous forme de modèle RDF accompagné d'un identifiant unique (GUID : Globally Unique Identifier).

The Calais web service automatically attaches rich semantic metadata to the content you submit – in well under a second. Using natural language processing, machine learning and other methods, Calais categorizes and links your document with entities (people, places, organizations, etc.), facts (person ‘x’ works for company ‘y’), and events (person ‘z’ was appointed chairman of company ‘y’ on date ‘x’). The metadata results are stored centrally and returned to you as industry-standard RDF constructs accompanied by a Globally Unique Identifier (GUID).

Le tout de manière transparente (sans privilégier d'approche top-down ou bottom-up) et simple (les modèles RDF sont créés à la volée), voir la FAQ et un peu de documentation.

L'API est également décrite ici. J'ai l'impression qu'à peine lancé, le concept jouit déjà d'un retour fortement positif, avec un premier client SOAP qui a déjà vu le jour, un module Drupal, et combien d'autres applications à venir ? Y aura-t-il des connexions possibles avec Twine, c'est également probable.

En tout cas, cela pourrait bien marquer un tournant dans la transition du Web actuel vers le Web 3.0... Alors, est-ce la fin du Web 2.0 ? (petit clin d'œil au passage ;-)

Source. À noter que Reuters offre 5000 $ à qui développera un plugin pour Wordpress via son Bounty Program...

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Open Calais, Reuters, Web sémantique, Web services, Web 2.0, Web 3.0

lundi 26 novembre 2007

Powerset : recherche en langage naturel et Web sémantique

Powerset : recherche en langage naturel et Web sémantique

Je dédie ce billet à mon père, Bernard Le Ray, parti pour un monde meilleur il y a 35 ans aujourd'hui.

Est-ce l'avenir de la recherche sur le Web ? Est-ce que ce sera une alternative de poids à Google ?

Voilà plus d'un an que le lancement de l'outil était annoncé pour fin 2007, or nous y sommes. Mais apparemment Powerset n'est encore qu'en phase de pré-lancement.

La semaine dernière, son fondateur, Barney Pell, a donné une conférence intitulée : POWERSET - Natural Language and the Semantic Web

accompagnée d'une présentation fort intéressante, où il nous explique plusieurs des notions sous-jacentes à la vision ambitieuse de Powerset. Que l'on peut résumer comme suit : grâce à la recherche en langage naturel,

- interpréter le Web
- l'indexer
- interpréter la requête
- chercher
- trouver

Et pour trouver, on va puiser dans différentes sources intégrées :

Exemple : sites Web, flux, blogs, archives, métadonnées, vidéos, podcasts, bases de données, etc.

Entre parenthèses, ça me rappelle furieusement la recherche universelle selon Google et les évolutions prévues pour les moteurs de recherche en 2010...

Donc quelle serait la différence entre Google et Powerset ? La réponse est dans le titre de l'intervention de Barney Pell : langage naturel et Web sémantique.

Alors en quoi le TAL (Traitement Automatique des Langues), ou TALN (Traitement Automatique du Langage Naturel, ou Traitement Automatique des Langues Naturelles) (voir commentaires) peut-il aider à l'exploitation du Web sémantique ?

Déjà, le postulat de Pell est qu'à l'heure actuelle le Web sémantique ne réussit pas à exprimer tout son potentiel car, entre autres, les ressources et les langages dédiés sont chers à créer, d’où un manque d’applications viables, d’où la difficulté de monter en puissance et de fédérer une masse critique de développeurs et … d’utilisateurs, etc.

Par conséquent le langage naturel peut - et doit - permettre de réduire les efforts de développement, en créant des annotations à partir de textes non structurés d'une part, et en générant des ontologies de l'autre.

L'idée est de rendre les documents plus intelligents :

1) par la proximité sémantique et conceptuelle, pour passer d'un document simple contenant de mots clés, à un document vecteur de mots clés (shift from “doc as bag-of-keywords” to “doc as vector-of-keywords”),

2) par l'adjonction "hors page" de textes d'ancrage à un document donné (Adding off-page text to doc), et

3) en explorant la structure linguistique de chaque document, qui contient codifiées, selon Pell, les intentions des documents.

Puis l'indexeur sémantique "cracks the code" de la structure linguistique pour en extraire le sens, après quoi un TALN profond est appliqué à l'ensemble du corpus pour bâtir une représentation riche (ontologies).

Le nœud central de la recherche en langue naturelle étant de dégager un appariement des ~~représentations~~ intentions : les intentions des requêtes d’un côté, les intentions des documents de l’autre.

L'appariement qui en sort (match) est le résultat.

Cette notion d'appariement est fort bien illustrée dans ce document de 2002, signé Sylvie Dalbin :

Or s'il est vrai que certains considèrent le Web comme une gigantesque base de données où rechercher les intentions, attention cependant à ne pas faire de Powerset un moteur de divination plus ou moins farfelu.

Nous avons déjà un moteur d'intentions, dont les concepteurs nous expliquent très clairement où se situent, selon eux, les différences entre tags et intentions (via Olivier) :

Otavo’s core concept is to organize your information on intentions (we call quests) instead of tags. Tags are used as a secondary organizer.

What’s the difference between Tags and Intentions?

Tags are categories. As categories, a tag does not store HOW or WHY you would use the information tagged, just where it belongs in the grand scheme of things.

Intentions store HOW and WHY you want to use the information.

Que je traduirais ainsi :

L'idée centrale d'Otavo consiste à organiser vos informations autour des intentions (que nous appelons requêtes) plutôt qu'autour des mots clés. Les mots clés sont utilisés comme des unités secondaires d'organisation.

Donc quelles sont les différences entre les mots clés et les intentions ?

Les mots clés sont des catégories, et, en tant que tels, ils ne vous indiquent ni COMMENT ni POURQUOI vous souhaitez utiliser l'information qu'ils étiquettent, mais juste à quelle catégorie elle appartient dans le grand ordonnancement des choses.

Par contre les intentions sont porteuses du POURQUOI et du COMMENT vous souhaitez utiliser l'information.

Vous le voyez, je traduis "tags" par "mots clés", car les mots clés sont au centre de la reformulation des requêtes, en cartes mentales pour les utilisateurs, en ontologies pour les moteurs.

Voir ici pour mieux comprendre ce à quoi je me réfère.

Mind Mapping Finlande
envoyé par felipedavid (via Savoir en réseau)

Donc apparier les intentions entre celles contenues dans des milliards de ~~documents~~ fichiers sur Internet et celles des milliards de requêtes des internautes, qui plus est multilingues, c'est pas gagné. Et dire de Powerset que c'est le Google killer, comme on le voit un peu partout, me semble largement prématuré. Même s'il est clair que l'avenir est au Web sémantique, tout au moins en partie.

Scott Prevost, responsable produits chez Powerset, confiait en juillet a Francis Pisani « qu’une fois leur système au point pour l’anglais (...) il leur suffirait du travail d’une seule personne pendant deux ans (...) pour mettre au point la technologie dans une autre langue. »

Je veux bien le croire, mais bon courage. Car vu la complexité des langues, bonjour la tâche ! Et attention aux accents...

Liens connexes qui prévisualisent certaines fonctionnalités de Powerset :

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Powerset, sémantique, Web sémantique, moteurs de recherche, mots clés, TALN, langages naturels, langues naturelles, Internet, Web 3.0

vendredi 19 octobre 2007

Twine

Philosophie de Twine
Le Web 3.0 en question
Nova Spivack

* * *

Dans le cadre du sommet Web 2.0 que j'ai annoncé et commencé à suivre sur ce blog, hier Nova Spivack a annoncé Twine, que nous présentent Tim O'Reilly, Read/Write Web (les deux avec un luxe de détails et de captures d'écran) ou Nicholas Carr (service gratuit en version base), entre autres.

Philosophie de Twine

Le communiqué de presse de Radar Networks nous donne les détails suivants (je condense) :

Twine est une application révolutionnaire du Web sémantique de prochaine génération, qui met les personnes, les groupes et les équipes en condition d'exploiter au mieux l'intelligence collective.

Présenté comme la première véritable application estampillée Web sémantique, Twine propose aux utilisateurs une façon intelligente de rassembler, de partager, d'organiser et de trouver les informations qu'ils cherchent en s'appuyant sur les avis/recommandations des internautes à qui ils font confiance, sur les contributions de leurs relations au sein d'un réseau de connaissances, gravitant autour d'intérêts et d'objectifs communs.

Vous pourrez ainsi suivre l'information à la trace, indépendamment de là où elle se trouve, collaborer grâce à l' "intelligence de l'outil", unique, qui appréhende la signification des informations et des relations et vous aide de façon automatique à les structurer et les connecter entre elles.

Pour ce faire, Twine utilise les ressources du Web sémantique, le traitement du langage naturel et l'intelligence artificielle, pour enrichir les informations et les modéliser afin que les individus puissent se les approprier. Twine transforme ainsi les données en contenu sémantique, pour faire de la connaissance une ressource enrichie, utile et interopérable.

Tout est mixé, amalgamé, toutes les données sont connectées, réunies en un seul espace : résultats de recherche, contacts, courriels, favoris, flux, documents, photos, vidéos, actus, produits, discussions, notes, etc.

L'utilisateur met ensuite tout ça en forme, comme il publie sur un blog ou un wiki, Twine étant conçu pour tout centraliser et devenir le "hub" de votre vie numérique.

Nous assistons au lancement du Web 3.0, mieux définissable comme la nouvelle décennie du Web, durant laquelle les technologies sémantiques nous aideront à transformer le Web, qui évoluera d'un serveur où sont stockés nos fichiers en une base de données mondialisée.

En rendant l'information compréhensible par les machines, connectée et réutilisable, le Web sémantique deviendra toujours plus intelligent.

Le communiqué conclut sur cette citation de Nova Spivack :

Yahoo! aura été le leader du Web 1.0, Google est le leader du Web 2.0, nous ne savons pas encore qui sera le leader du Web 3.0. C’est un nouveau territoire à explorer, mais Twine représente un premier pas, un signe fort, nous sommes surexcités par toute cette aventure.

Alors, Twine, Web 3.0 ou Pipo 2.0 ? Une interrogation à laquelle je vais tenter de répondre. [Début]

Le Web 3.0 en question

Comme je le commente sur le blog de Pierre Chappaz :

En une grosse dizaine d'années, pratiquement on est passé d'un niveau d'utilisation 0 d'Internet à près d'un milliard d'internautes, à la création d'une nouvelle économie mondialisée qui connaît une croissance exponentielle et qui véhicule des sommes considérables, des emplois, etc. etc.

Je ne pense pas qu'il y ait d'exemple semblable d'une telle croissance, aussi rapide, dans toute l'histoire de l'humanité. Donc le fait de mettre des noms sur les choses, que ce soit Web 3.0 ou Pipo 2.0, correspond tout simplement à la nécessité de trouver de nouveaux mots, et de nouveaux concepts, pour les faire correspondre à des réalités nouvelles.

C'est quelque chose qu'on voit tous les jours en terminologie, où la néologie est une branche florissante de la création linguistique. Pas par désir d'inventer de nouveaux mots en soi, mais juste pour tenter de mettre des noms signifiants sur des choses qu'on ignorait hier encore, mais qui sont désormais là, et bien là. Pour durer.

Car si un tel processus n'était pas constamment en marche, on appellerait toujours l'ordinateur un boulier.

Pourquoi pas, me direz-vous ? Mais cela ne ferait guère avancer les sciences et techniques, qui bouillonnent pourtant de nouveautés : environ 3000 par an, et ça ne cesse d'augmenter. Donc faute de trouver de nouveaux mots et de se mettre d'accord sur un minimum de sens commun, nous ne saurions pas nommer les choses.

Par conséquent je trouve que toute la réflexion autour de ce qu'est le Web et ses différentes déclinaisons, 1.0, 2.0, 3.0 ou n.0, peu importe, est extrêmement enrichissante et nécessaire.

Pour autant le concept de Web 3.0 selon Nova Spivack est très élaboré (j'y reviendrai), et Twine s'appuie sur un certain nombre de technologies de pointe qui en font une plateforme ouverte - API SPARQL et REST, RDF, OWL, XSL, probablement à terme GRDDL (Gleaning Resource Descriptions from Dialects of Languages) - et semblent justifier le terme d'application Web 3.0. Si vous voulez en savoir plus...

Ontologies extensibles, taguables, widgetisables, graphe sémantique (après le graphe social, qu'il intègre, et différemment de ce graphe sémantique-là) pour modéliser / cartographier les relations entre les gens et les choses, entre les arguments et les documents, et intégration d'une dimension sociale (wisdom of crowds plus the wisdom of computers working together) au sein d'une base de données mondiale. Spivack a d'ailleurs déposé un brevet intitulé Semantic web portal and platform.

Terriblement ambitieux et passionnant. En tout état de cause Twine est un produit innovant dont la prise en main demandera probablement du temps et de la patience. À tester donc, avant de déclarer trop péremptoirement que c'est une connerie Web 3.0 de plus. D'autant que Nova Spivack n'est pas à proprement parler n'importe qui. [Début]

Nova Spivack

Je l'ai découvert lors de la publication de Web 2.0 vs. Web 3.0 et de l'échange qui s'en est suivi avec Didier Durand, où un commentateur pointait vers un document de 25 pages intitulé Minding The Planet - The Meaning and Future of the Semantic Web, dont la lecture m'a captivé et que j'ai commencé à traduire (mais c'est long, j'ai été trop optimiste...), avec l'autorisation de Nova. Un article brillant, objet de ce qui fut probablement aussi l'une des premières expériences de propagation d'un mème à travers la blogosphère...

Pour celles et ceux qui comprennent l'anglais, Nova Spivack y explique fort bien la vision qu'il a du Web 3.0, dont le déploiement optimal arrivera, selon lui, vers 2010.

Une approche/vision réaffirmée à Richard MacManus, ainsi présentée par Francis Pisani :

Alors que web 3.0 n’est pas synonyme du web sémantique (il y aura plusieurs autres déplacements technologiques importants au cours de cette période), il sera largement caractérisé par la sémantique en générale. Le web 3.0 caractérise une époque au cours de la quelle nous améliorerons (upgrade) les couches profondes (back-end) du web après une décennie de concentration sur le devant visible (front-end) (web 2.0 a essentiellement tourné autour de AJAX, du tagging et d’autres innovations portant sur l’expérience des usagers dans le front-end du web.

Dans son billet, Francis s'interroge aussi sur la traduction en contexte de "back-end" et "front-end", je le comprends car je me tâte encore pour la meilleure traduction possible de Minding The Planet. Donc, déjà, si je bute sur le titre, je vous dis pas le reste... :-) [Début]

Jean-Marie Le Ray

Partager sur Facebook

Actualités, Web 3.0, Web 2.0, Web2Summit, Twine, Web sémantique, intelligence collective, veille, réseaux sociaux, connaissance, Internet

Pages

samedi 30 août 2008

Le graphe social selon Google

samedi 31 mai 2008

10 technologies de rupture pour 2008 - 2012

samedi 15 mars 2008

Scoop Adscriptor - Bloc contre bloc, l'internaute au centre...

samedi 16 février 2008

Open Calais : Reuters nous rapproche du Web sémantique

lundi 26 novembre 2007

Powerset : recherche en langage naturel et Web sémantique

vendredi 19 octobre 2007

Twine