sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Solution pour différencier le s homonymes ?


From: Martin Sevigny
Subject: Re: [sdx-users] Solution pour différencier le s homonymes ?
Date: Mon, 12 Sep 2005 10:20:48 +0200
User-agent: Mozilla Thunderbird 1.0.6 (Windows/20050716)

Bonjour,

Burghart a écrit :

Je me demandais si certains d'entre vous auraient déjà travaillé sur la possibilité de différencier les homonymes homographes dans la liste des termes d'une application SDX (par exemple, "feuille" de papier, et "feuille" d'un arbre, ou des "fils" de bonne famille et des "fils" à coudre) ?

Je n'ai jamais fait cela, mais il peut y avoir plusieurs approches.

En indexation par mots, il faut distinguer ces concepts, donc il faut
nécessairement créer un analyseur de mots spécifique car il faudra
analyser le contenu de manière beaucoup plus fine. Des outils d'analyse
linguistique devront donc être branchés.

A partir de cela, il serait possible d'injecter d'autres termes,
éventuellement dans d'autres champs, pour faire les distinctions.

D'un point de vue utilisateur, il faut voir aussi pour distinguer ce
qu'il veut dans ses requêtes. Donc là il faut lier à un réseau
sémantique (le même qu'à l'indexation logiquement) qui intercepte le mot
"feuille" et qui lui propose différents concepts et qui ajuste la requête.

En indexation par champ, SDX peut faire une bonne partie de cela si vous
avez les concepts sous la forme d'un thésaurus (en XML). SDX peut par
exemple chercher le mot "feuille" dans le thésaurus et retourner les
concepts qui ont ce mot dans leur terme. Une interface peut alors
proposer de faire une recherche sur "Feuille de papier", etc.

Mais cela suppose que le terme "Feuille de papier" se trouve dans le
document, et dans un champ spécifique. Mais ça aussi c'est possible,
avec un peu de travail.

Dans un pipeline d'indexation, vous pouvez lancer un analyseur
sémantique (toujours le même) qui vous retournera des concepts et vous
les placez dans un champ SDX à utiliser en recherche...

Bref, je pense que la meilleur piste est:

- un réseau sémantique, utilisable à la fois comme thésaurus dans SDX et
comme source d'un analyseur sémantique

- recherche de concepts dans le texte à indexer à l'aide d'un analyseur
sémantique pour les injecter dans un champ SDX

- utilisation du thésaurus en recherche dans SDX ou, comme solution
alternative, branchement du réseau sémantique dans SDX...

Assez générale comme réponse mais difficile d'aller plus loin sans plus
d'éléments.

Si vous implémentez quelque chose ça intéressera beaucoup de personnes
je crois.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]