Publication :
Forces et faiblesses de l'utilisation de trigrams dans l'étiquetage automatique du français : exploration à partir des homographes de type verbe-substantif

En cours de chargement...
Vignette d'image
Date
2004
Direction de publication
Direction de recherche
Titre de la revue
ISSN de la revue
Titre du volume
Éditeur
Projets de recherche
Structures organisationnelles
Numéro de revue
Résumé
Ce mémoire porte sur l'étiquetage automatique de texte français, c'est-à-dire l'attribution, par un programme informatique appelé étiqueteur, de la nature grammaticale des mots d'un texte français. En particulier, ce mémoire explore les forces et les faiblesses de l'utilisation du modèle mathématique des trigrams pour cette tâche. L'efficacité du modèle des trigrams est évaluée à l'aide d'observations sur la désambiguïsation des homographes de type verbe/substantif en français, c'est-à-dire, des mots dont la graphie est la même selon qu'ils soient verbe ou substantif (ex. : ferme). Ce mémoire tente de répondre à trois questions : 1. Pourquoi les étiqueteurs à modèle mathématique comme les trigrams réussissent-ils à 95%? 2. Qu'est-ce qui empêche d'améliorer ces performances? 3. Comment des connaissances linguistiques peuvent-elles permettre d'améliorer ces performances?
En rapport à ces questions, les résultats obtenus lors de ces travaux montrent que : 1. les structures syntaxiques sont suffisamment récurrentes pour permettre aux trigrams de saisir en grande partie les règles syntaxiques nécessaires à la désambiguïsation; 2. le calcul d'un taux de succès général dissimule, d'un point de vue linguistique, des décisions incohérentes du modèle des trigrams qu'ils seraient difficile de rectifier simplement en modifiant les trigrams; 3. la connaissance de contraintes syntaxiques permet d'analyser plus en détail le comportement du modèle des trigrams et de suggérer, en conséquence, des solutions pour améliorer le taux de succès d'un étiqueteur.
Description
Revue
DOI
URL vers la version publiée
Mots-clés
Citation
Type de document
mémoire de maîtrise