Publication :
Similarité statistique pour le CBR textuel

En cours de chargement...
Vignette d'image
Date
2007
Direction de publication
Direction de recherche
Titre de la revue
ISSN de la revue
Titre du volume
Éditeur
Projets de recherche
Structures organisationnelles
Numéro de revue
Résumé

Les courriers électroniques sont devenus au cours des dernières années un moyen de communication privilégié. Leur nombre atteint des niveaux si élevés que leur manipulation par les entreprises devient difficile manuellement et requiert des méthodes automatiques. Les systèmes de suivi automatique permettent un traitement des messages et une augmentation de la facilité pour les utilisateurs qui désirent créer un courriel en réponse à une requête, à partir de messages archivés dans la bibliothèque de l’entreprise. Un des problèmes majeurs dans ce type d’application est la sélection de courriers électroniques archivés pertinents à la requête nouvellement soumise : il est nécessaire que le texte retourné par le système qui servira de base à la rédaction d’une réponse, soit en corrélation avec le sujet de la question posée. La recherche de la similarité entre les textes est donc une des principales tâches de ce système. L’objectif de nos travaux se situe toutefois à un niveau supérieur à la simple recherche de similarité entre courriers électroniques; nous avons comme objectif d’évaluer la similarité entre des textes comportant peu de mots. Pour cela, notre étude comporte deux parties distinctes: la recherche de similarités entre des mots afin d’élargir le vocabulaire d’un texte, e le calcul de la similarité entre les documents. Notre question de recherche consiste à identifier les techniques les plus pertinentes pour évaluer la similarité textuelle, et déterminer s’il est possible d’améliorer ces techniques par des combinaisons de méthodes de calcul de la similarité sémantique et de détection des cooccurrences de mots. Lors de nos expérimentations, nous avons cherché à améliorer la similarité sémantique entre les mots. Nous avons aussi proposé plusieurs méthodes pour élargir le vocabulaire des documents basées sur les résultats de la première partie de nos travaux. Nous avons enfin mesuré la similarité sémantique entre les documents modifiés, afin de les utiliser comme base à la rédaction d’une réponse à la nouvelle requête. Notre bilan nous indique que, grâce à nos calculs, il est possible d’améliorer les résultats de calcul de la similarité entre les mots (cosinus) en filtrant les cooccurrences. Cependant, une méthode de filtrage ne garantit pas nécessairement des améliorations, et peut même dégrader la capacité de détection de similarité textuelle. Une comparaison avec la technique du tf*idf nous a permis de constater que les résultats améliorés du cosinus, que nous avons obtenus, égalent pratiquement cette technique, sans pour autant la dépasser.


E-mails have recently become a popular mean of communication for exchanges between companies and their customers. However the increasing volume of messages makes manual processing difficult to achieve and automatic methods are foreseen as a more efficient solution. Automatic management systems help users in the processing of the messages and in the creation of a response from the messages kept in the company databases. One important question in this type of application is how to select existing e-mails to respond to a new request. The creation of new response messages requires texts pertaining to the new request topics. Finding similarity between documents is also an important task. Our goal for this research effort was to study how to detect similarity between small documents. To accomplish it, we followed a two-pronged approach: - finding similarity between words in order to augment a document’s vocabulary; - estimating similarity between documents, using all the similar words resulting from the previous step. We dedicated our work to determine the most interesting techniques to detect textual similarity between documents, and to improve those techniques using cooccurrences detection and lexical semantic similarity. During our experimentations, we tried different combinations, using cooccurrences detection and lexical similarity. We proposed techniques to augment the vocabulary of each message, based on different kind of reasoning to improve the estimation of similarity between documents. Our results indicate that the proposed augmentation techniques improve significantly the estimation of document similarity. The best results were obtained when using a combination of cooccurrences filter and cosine metric. However our experiments clearly indicate these results do not overcome the performance of similarity techniques based on tf*idf weights.

Description
Revue
DOI
URL vers la version publiée
Mots-clés
Citation
Licence CC
Type de document