Pages

lundi 26 novembre 2007

Powerset : recherche en langage naturel et Web sémantique

Powerset : recherche en langage naturel et Web sémantique

Je dédie ce billet à mon père, Bernard Le Ray, parti pour un monde meilleur il y a 35 ans aujourd'hui.

Est-ce l'avenir de la recherche sur le Web ? Est-ce que ce sera une alternative de poids à Google ?

Voilà plus d'un an que le lancement de l'outil était annoncé pour fin 2007, or nous y sommes. Mais apparemment Powerset n'est encore qu'en phase de pré-lancement.


La semaine dernière, son fondateur, Barney Pell, a donné une conférence intitulée : POWERSET - Natural Language and the Semantic Web


accompagnée d'une présentation fort intéressante, où il nous explique plusieurs des notions sous-jacentes à la vision ambitieuse de Powerset. Que l'on peut résumer comme suit : grâce à la recherche en langage naturel,

- interpréter le Web
- l'indexer
- interpréter la requête
- chercher
- trouver



Et pour trouver, on va puiser dans différentes sources intégrées :


Exemple : sites Web, flux, blogs, archives, métadonnées, vidéos, podcasts, bases de données, etc.

Entre parenthèses, ça me rappelle furieusement la recherche universelle selon Google et les évolutions prévues pour les moteurs de recherche en 2010...

Donc quelle serait la différence entre Google et Powerset ? La réponse est dans le titre de l'intervention de Barney Pell : langage naturel et Web sémantique.

Alors en quoi le TAL (Traitement Automatique des Langues), ou TALN (Traitement Automatique du Langage Naturel, ou Traitement Automatique des Langues Naturelles) (voir commentaires) peut-il aider à l'exploitation du Web sémantique ?

Déjà, le postulat de Pell est qu'à l'heure actuelle le Web sémantique ne réussit pas à exprimer tout son potentiel car, entre autres, les ressources et les langages dédiés sont chers à créer, d’où un manque d’applications viables, d’où la difficulté de monter en puissance et de fédérer une masse critique de développeurs et … d’utilisateurs, etc.

Par conséquent le langage naturel peut - et doit - permettre de réduire les efforts de développement, en créant des annotations à partir de textes non structurés d'une part, et en générant des ontologies de l'autre.

L'idée est de rendre les documents plus intelligents :

1) par la proximité sémantique et conceptuelle, pour passer d'un document simple contenant de mots clés, à un document vecteur de mots clés (shift from “doc as bag-of-keywords” to “doc as vector-of-keywords”),

2) par l'adjonction "hors page" de textes d'ancrage à un document donné (Adding off-page text to doc), et

3) en explorant la structure linguistique de chaque document, qui contient codifiées, selon Pell, les intentions des documents.

Puis l'indexeur sémantique "cracks the code" de la structure linguistique pour en extraire le sens, après quoi un TALN profond est appliqué à l'ensemble du corpus pour bâtir une représentation riche (ontologies).

Le nœud central de la recherche en langue naturelle étant de dégager un appariement des représentations intentions : les intentions des requêtes d’un côté, les intentions des documents de l’autre.

L'appariement qui en sort (match) est le résultat.

Cette notion d'appariement est fort bien illustrée dans ce document de 2002, signé Sylvie Dalbin :


Or s'il est vrai que certains considèrent le Web comme une gigantesque base de données où rechercher les intentions, attention cependant à ne pas faire de Powerset un moteur de divination plus ou moins farfelu.

Nous avons déjà un moteur d'intentions, dont les concepteurs nous expliquent très clairement où se situent, selon eux, les différences entre tags et intentions (via Olivier) :
Otavo’s core concept is to organize your information on intentions (we call quests) instead of tags. Tags are used as a secondary organizer.

What’s the difference between Tags and Intentions?

Tags are categories. As categories, a tag does not store HOW or WHY you would use the information tagged, just where it belongs in the grand scheme of things.

Intentions store HOW and WHY you want to use the information.
Que je traduirais ainsi :
L'idée centrale d'Otavo consiste à organiser vos informations autour des intentions (que nous appelons requêtes) plutôt qu'autour des mots clés. Les mots clés sont utilisés comme des unités secondaires d'organisation.

Donc quelles sont les différences entre les mots clés et les intentions ?

Les mots clés sont des catégories, et, en tant que tels, ils ne vous indiquent ni COMMENT ni POURQUOI vous souhaitez utiliser l'information qu'ils étiquettent, mais juste à quelle catégorie elle appartient dans le grand ordonnancement des choses.

Par contre les intentions sont porteuses du POURQUOI et du COMMENT vous souhaitez utiliser l'information.
Vous le voyez, je traduis "tags" par "mots clés", car les mots clés sont au centre de la reformulation des requêtes, en cartes mentales pour les utilisateurs, en ontologies pour les moteurs.

Voir ici pour mieux comprendre ce à quoi je me réfère.


Donc apparier les intentions entre celles contenues dans des milliards de documents fichiers sur Internet et celles des milliards de requêtes des internautes, qui plus est multilingues, c'est pas gagné. Et dire de Powerset que c'est le Google killer, comme on le voit un peu partout, me semble largement prématuré. Même s'il est clair que l'avenir est au Web sémantique, tout au moins en partie.


Scott Prevost, responsable produits chez Powerset, confiait en juillet a Francis Pisani « qu’une fois leur système au point pour l’anglais (...) il leur suffirait du travail d’une seule personne pendant deux ans (...) pour mettre au point la technologie dans une autre langue. »

Je veux bien le croire, mais bon courage. Car vu la complexité des langues, bonjour la tâche ! Et attention aux accents...

Liens connexes qui prévisualisent certaines fonctionnalités de Powerset :

Partager sur Facebook

, , , , , , , , , ,

6 commentaires:

Nicolas Cynober a dit…

Je suis actuellement sur la beta et je ne suis pas du tout embalé. En tout cas c'est un projet ambitieux, mais est-il réalisable au jour d'aujourd'hui ? Pas si sûre... Je pense que leur projet est lancé 5 ou 10 ans trop tôt.

Claude a dit…

Bonjour,

je sens qu'on va me prendre pour le chauvin de service... Enfin bon, je m'y colle.

NLP en français se traduit par TAL et non TALN... TAL pour Traitement Automatique des Langues. "Langue naturelle" en français est inutile et redondant puisque nous faisons la différence entre langage et langue, ce que l'anglais ne fait pas... (le terme tongue en anglais n'est utilisé le sens de langue parlée que dans l'expression mother tongue).
TALN existe mais il s'agit d'une revue ainsi que d'une conférence pour les milieux francophones travaillant en TAL...

Voilà, voilà...

Jean-Marie Le Ray a dit…

Claude,

Qu'on traduise aujourd'hui NLP par TAL, je veux bien, mais de là à dire que TALN est seulement une revue ou une conférence, il y a un pas ... que je ne franchirais point.

De plus cela fait 25 ans que je travaille dans les langues, et j'ai toujours vu les expressions traitement automatique des langues naturelles et traitement automatique du langage naturel.

Donc que l'évolution terminologique donne maintenant TAL, d'accord, mais affirmer péremptoirement qu'aujourd'hui TALN n'est plus utilisé en français que comme nom de revue ou de conférence, pas d'accord.

Les deux/trois expressions (sans compter d'autres, comme ingénierie linguistique, etc.) et les deux sigles cohabiteront longtemps encore, la preuve en est que parmi les 70 milles occurrences cumulées sur Google, de très nombreux résultats proviennent d'universités françaises.

Jean-Marie

Claude a dit…

Je sais mon ton manquait peut-être de subtilité... :-)

En fait, je me bats de mon côté depuis quinze ans contre l'expression "langue naturelle" que je trouve inutilement lourde et redondante... Du moins en français...
Il existe nombre d'endroits où TAL est utilisé en lieu et place de TALN. De toute façon, le nom même de la conférence et de la revue rappelle que l'utilisation de cet acronyme comme traduction de NLP est attestée et ancienne...

Mais bon, je travaille dans le domaine depuis tellement longtemps qu'il m'arrive fréquemment de déraper et d'utiliser l'expression incriminée.

Sinon, pour revenir à PowerSet, je connais assez bien la technologie à la base pour l'avoir cotoyé de près... :-) Elle n'a rien d'une technologie linguistique récente. PARC et XRCE (aussi) ont travaillé sur les différentes grammaires pendant plus de 10 ans... C'est une technologie linguistique plutôt éprouvée basée sur LFG...
En revanche, je ne sais pas si le passage à une échelle supérieure va s'effectuer aussi simplement...

Jean-Marie Le Ray a dit…

Claude,

Merci pour tes commentaires, j'ai intégré TAL dans le billet. Je me bats moi-même à longueur de journées - et bien souvent aussi, de nuits -, contre maintes expressions "que je trouve inutilement lourdes et redondantes" pour être suffisamment sensibilisé au sujet.
Mais le TAL(N) est largement rébarbatif comme approche pour un traducteur comme moi...

Concernant Powerset, entre ton avis et celui de Nicolas, j'ai bien peur que mes craintes soient confirmées, même si je n'ai pas approfondi autant que j'aurais pu le faire ce billet.

Ça fera une suite probable...

Merci de participer à la conversation :-)

Jean-Marie

thomas renaudin a dit…

Qu'entend exactement Powerset par "interpreter le Web"? En tout cas, l'idée d'utiliser le langage naturel dans les moteurs de recherches me paraît très bonne.
Si le langage naturel vous intéresse, je vous conseille un petit blog qui explique plutôt bien cette technologie : http://www.langage-naturel.fr