Je dédie ce billet à mon père, Bernard Le Ray, parti pour un monde meilleur il y a 35 ans aujourd'hui.
Est-ce l'avenir de la recherche sur le Web ? Est-ce que ce sera une alternative de poids à Google ?
Voilà plus d'un an que le lancement de l'outil était annoncé pour fin 2007, or nous y sommes. Mais apparemment Powerset n'est encore qu'en phase de pré-lancement.

La semaine dernière, son fondateur, Barney Pell, a donné une conférence intitulée : POWERSET - Natural Language and the Semantic Web

accompagnée d'une présentation fort intéressante, où il nous explique plusieurs des notions sous-jacentes à la vision ambitieuse de Powerset. Que l'on peut résumer comme suit : grâce à la recherche en langage naturel,
- interpréter le Web
- l'indexer
- interpréter la requête
- chercher
- trouver

Et pour trouver, on va puiser dans différentes sources intégrées :

Exemple : sites Web, flux, blogs, archives, métadonnées, vidéos, podcasts, bases de données, etc.
Entre parenthèses, ça me rappelle furieusement la recherche universelle selon Google et les évolutions prévues pour les moteurs de recherche en 2010...
Donc quelle serait la différence entre Google et Powerset ? La réponse est dans le titre de l'intervention de Barney Pell : langage naturel et Web sémantique.
Alors en quoi le TAL (Traitement Automatique des Langues), ou TALN (Traitement Automatique du Langage Naturel, ou Traitement Automatique des Langues Naturelles) (voir commentaires) peut-il aider à l'exploitation du Web sémantique ?
Déjà, le postulat de Pell est qu'à l'heure actuelle le Web sémantique ne réussit pas à exprimer tout son potentiel car, entre autres, les ressources et les langages dédiés sont chers à créer, d’où un manque d’applications viables, d’où la difficulté de monter en puissance et de fédérer une masse critique de développeurs et … d’utilisateurs, etc.
Par conséquent le langage naturel peut - et doit - permettre de réduire les efforts de développement, en créant des annotations à partir de textes non structurés d'une part, et en générant des ontologies de l'autre.
L'idée est de rendre les documents plus intelligents :
1) par la proximité sémantique et conceptuelle, pour passer d'un document simple contenant de mots clés, à un document vecteur de mots clés (shift from “doc as bag-of-keywords” to “doc as vector-of-keywords”),
2) par l'adjonction "hors page" de textes d'ancrage à un document donné (Adding off-page text to doc), et
3) en explorant la structure linguistique de chaque document, qui contient codifiées, selon Pell, les intentions des documents.
Puis l'indexeur sémantique "cracks the code" de la structure linguistique pour en extraire le sens, après quoi un TALN profond est appliqué à l'ensemble du corpus pour bâtir une représentation riche (ontologies).
Le nœud central de la recherche en langue naturelle étant de dégager un appariement des
L'appariement qui en sort (match) est le résultat.
Cette notion d'appariement est fort bien illustrée dans ce document de 2002, signé Sylvie Dalbin :

Or s'il est vrai que certains considèrent le Web comme une gigantesque base de données où rechercher les intentions, attention cependant à ne pas faire de Powerset un moteur de divination plus ou moins farfelu.
Nous avons déjà un moteur d'intentions, dont les concepteurs nous expliquent très clairement où se situent, selon eux, les différences entre tags et intentions (via Olivier) :
Otavo’s core concept is to organize your information on intentions (we call quests) instead of tags. Tags are used as a secondary organizer.Que je traduirais ainsi :
What’s the difference between Tags and Intentions?
Tags are categories. As categories, a tag does not store HOW or WHY you would use the information tagged, just where it belongs in the grand scheme of things.
Intentions store HOW and WHY you want to use the information.
L'idée centrale d'Otavo consiste à organiser vos informations autour des intentions (que nous appelons requêtes) plutôt qu'autour des mots clés. Les mots clés sont utilisés comme des unités secondaires d'organisation.Vous le voyez, je traduis "tags" par "mots clés", car les mots clés sont au centre de la reformulation des requêtes, en cartes mentales pour les utilisateurs, en ontologies pour les moteurs.
Donc quelles sont les différences entre les mots clés et les intentions ?
Les mots clés sont des catégories, et, en tant que tels, ils ne vous indiquent ni COMMENT ni POURQUOI vous souhaitez utiliser l'information qu'ils étiquettent, mais juste à quelle catégorie elle appartient dans le grand ordonnancement des choses.
Par contre les intentions sont porteuses du POURQUOI et du COMMENT vous souhaitez utiliser l'information.
Voir ici pour mieux comprendre ce à quoi je me réfère.
Donc apparier les intentions entre celles contenues dans des milliards de

Scott Prevost, responsable produits chez Powerset, confiait en juillet a Francis Pisani « qu’une fois leur système au point pour l’anglais (...) il leur suffirait du travail d’une seule personne pendant deux ans (...) pour mettre au point la technologie dans une autre langue. »
Je veux bien le croire, mais bon courage. Car vu la complexité des langues, bonjour la tâche ! Et attention aux accents...
Liens connexes qui prévisualisent certaines fonctionnalités de Powerset :
Partager sur Facebook
Actualités, Powerset, sémantique, Web sémantique, moteurs de recherche, mots clés, TALN, langages naturels, langues naturelles, Internet, Web 3.0
























