Forces et faiblesses de l'utilisation de trigrams dans l'étiquetage automatique du français : exploration à partir des homographes de type verbe-substantif

Authors: Brault, Frédérick
Advisor: Auger, Pierre
Abstract: Ce mémoire porte sur l'étiquetage automatique de texte français, c'est-à-dire l'attribution, par un programme informatique appelé étiqueteur, de la nature grammaticale des mots d'un texte français. En particulier, ce mémoire explore les forces et les faiblesses de l'utilisation du modèle mathématique des trigrams pour cette tâche. L'efficacité du modèle des trigrams est évaluée à l'aide d'observations sur la désambiguïsation des homographes de type verbe/substantif en français, c'est-à-dire, des mots dont la graphie est la même selon qu'ils soient verbe ou substantif (ex. : ferme). Ce mémoire tente de répondre à trois questions : 1. Pourquoi les étiqueteurs à modèle mathématique comme les trigrams réussissent-ils à 95%? 2. Qu'est-ce qui empêche d'améliorer ces performances? 3. Comment des connaissances linguistiques peuvent-elles permettre d'améliorer ces performances?
Document Type: Mémoire de maîtrise
Issue Date: 2004
Open Access Date: 11 April 2018
Permalink: http://hdl.handle.net/20.500.11794/17941
Grantor: Université Laval
Collection:Thèses et mémoires

Files in this item:
SizeFormat 
22111.pdf535.41 kBAdobe PDFView/Open
All documents in CorpusUL are protected by Copyright Act of Canada.