Comparaison de la performance relative de l'analyse discriminante prédictive linéaire polytomique et de la régression logistique polytomique nominale en contexte de quasi-multinormalité et d'erreur de mesure

Authors: Brière, Luc
Advisor: Dupuis, François-A.
Abstract: Cette recherche, de type méthodologique, envisage d'étudier la prédiction ou la classification portant sur une variable dépendante polytomique et nominale (VDPN) à partir d'un ensemble de variables indépendantes continues. Plus exactement, deux modèles sont privilégiés, dans la littérature comme dans notre étude, pour le cas d'une VDPN, soit : 1) l'analyse discriminante prédictive linéaire polytomique (ADPLP); 2) la régression logistique polytomique nominale (RLPN). Bref, en situation de classification, la procédure statistique de ces méthodes, basée sur l'estimation des probabilités a posteriori, P\k\x.i), cherche principalement à construire une règle de classification permettant d'affecter un individu i décrit par un vecteur x de p variables prédictrices à l'un des K groupes nominaux (K>2) d'une partition définie a priori et aléatoirement (i.e. où chaque sujet possède une chance égale de faire partie de l'échantillon) sur la population à l'étude, et ce, de façon à minimiser le risque de classements erronés. Avant de choisir entre l'ADPLP et la RLPN, il est nécessaire, en regard des conditions imposées par chacun des modèles et certaines contraintes de mesure, de voir comment se comparent les deux modèles en termes de performance relative, de voir si la décision d'opter pour l'une ou l'autre de ces méthodes porte à conséquence. En regard de la littérature recensée sur le sujet, aucune étude, du moins à notre connaissance, ne compare systématiquement l'efficacité relative de l'ADPLP et de la RLPN en contexte de quasi-multinormalité (i.e. lorsque, par exemple, une ou des variables prédictrices possèdent un degré faible, mais non nul de dissymétrie et/ou de kurtose de la distribution) et d'erreur de mesure (i.e. à partir du niveau pxx de fidélité associé à chacune des variables indépendantes). L'effet de trois autres conditions est également mis à contribution dans l'étude, soit la taille échantillonnale (n), les probabilités a priori égales ou inégales (n) des groupes ainsi que le degré de séparation des groupes (à partir de D2, la distance généralisée de Mahalanobis). Pour vérifier les effets qui nous intéressent, les comparaisons sont effectuées de manière à refléter le plus possible les conditions susceptibles d'être rencontrées dans le domaine de la recherche en sciences humaines. Afin de réaliser ce travail au mieux qu'il se peut, les échantillons sont modelés par l'approche de simulation Monte Carlo en fonction d'un devis expérimental reproduisant des situations typiques de recherche. Enfin, nous adoptons une définition de la performance relative de l'ADPLP et de la RLPN qui se restreint à Xefficacité prédictive, et plus particulièrement, au critère ^inexactitude de la règle de classification de chacun des modèles. Spécifiquement, trois mesures sont considérées sur les données validées pour rendre compte de l'inexactitude de la règle de classification, soit : 1) le taux global d'erreur de classifications (TGEC); 2) le score quadratique de Brier (SQB); 3) le score logarithmique (SL). Globalement, des deux méthodes mises à l'essai, même s'il existe souvent d'infimes différences entre leurs performances respectives, les résultats portent à croire que l'ADPLP performe mieux. En effet, compte tenu de notre contexte de recherche, les analyses générales et spécifiques des résultats de l'expérimentation laissent plus fréquemment apparaître, en regard des critères de performance de classification TGEC, SQB et SL, la supériorité de l'ADPLP à classer des observations. Aussi, et surtout, une analyse supplémentaire a permis de constater que la classification des deux méthodes gagne en efficacité à mesure que les paramètres de non-multinormalité de la distribution des variables prédictrices augmentent, mais que l'ADPLP devient moins efficace par rapport à la RLPN au fur et à mesure de cette augmentation.
Document Type: Thèse de doctorat
Issue Date: 2008
Open Access Date: 13 April 2018
Permalink: http://hdl.handle.net/20.500.11794/19944
Grantor: Université Laval
Collection:Thèses et mémoires

Files in this item:
SizeFormat 
25270.pdf73.81 MBAdobe PDFView/Open
All documents in CorpusUL are protected by Copyright Act of Canada.