Pour savoir comment effectuer et gérer un dépôt de document, consultez le « Guide abrégé – Dépôt de documents » sur le site Web de la Bibliothèque. Pour toute question, écrivez à corpus@ulaval.ca.
 

Publication :
Applications de méthodes de classification non supervisées à la détection d'anomalies

En cours de chargement...
Vignette d'image

Date

2020

Direction de publication

Direction de recherche

Titre de la revue

ISSN de la revue

Titre du volume

Éditeur

Projets de recherche

Structures organisationnelles

Numéro de revue

Résumé

Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux.


In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.

Description

Revue

DOI

URL vers la version publiée

Mots-clés

Citation

Licence CC

Type de document