Sabine LOUDCHER RABASEDA

    Maître de Conférences en Informatique

    Tel: +33 (0)4 78 77 23 20

    Fax: +33 (0)4 78 77 23 75  


Contributions à l'extraction automatique de connaissances :
application à l'analyse clinique de la marche

Thèse de Doctorat (Université Lyon 1)
Soutenue le 16 Décembre 1996



Résumé :

Dans cette thèse, notre objectif méthodologique consiste à contribuer à la mise en place de nouvelles techniques d'Extraction de Connaissances à partir de Données (ECD). Parmi les méthodes d'ECD, nous nous intéressons plus particulièrement à celles basées sur les graphes d'induction. Notre contribution méthodologique est double.

D'une part, nous souhaitons proposer une méthode d'ECD capable de manipuler simultanément des données numériques et symboliques. Notre contribution porte sur une meilleure prise en compte des données numériques dans les graphes d'induction avec la constitution d'un nouvel algorithme de discrétisation, baptisé FUSINTER. Les résultats obtenus par FUSINTER sont comparés à ceux obtenus par d'autres techniques. Nous discutons également de l'évaluation, avant toute discrétisation, de la séparabilité des exemples selon les classes, par le test non paramétrique des séquences de A. Mood.

D'autre part, pour alimenter la base de connaissances d'un système expert ou pour améliorer la compréhension d'un problème, nous souhaitons générer, à partir d'une méthode d'ECD, des connaissances exprimées sous forme de règles claires et concises. Suite aux problèmes engendrés par cette génération, nous nous posons le problème de la simplification d'une base de règles. En réponse aux limites des différentes approches de simplification, nous introduisons notre propre algorithme qui permet d'éliminer les informations redondantes et incohérentes pour obtenir une base optimale avec des règles en faible nombre et concises.

Dans le cadre d'un projet médical, des médecins nous ont soumis un problème concernant la caractérisation de la marche dans le but de la constitution d'un système d'identification automatique du type de marche. Notre objectif dans le cadre de cette application est de mettre en évidence les paramètres caractéristiques de certaines boiteries. Nous posons comme hypothèse que le déplacement du Centre du Bassin constitue un résumé de la marche et est sensible à ses perturbations. Nous décrivons la trajectoire du Centre du Bassin par des paramètres spatiaux et temporels. Parmi ces paramètres descriptifs, nous souhaitons trouver ceux caractéristiques des différents types de marche. Ce projet comporte un problème d'ECD avec la détermination des règles de diagnostic des différents types de marche. Par conséquent, nous utilisons comme méthodes d'ECD, des méthodes d'origine statistique, neuronale, génétique, symbolique ou à base de graphe d'induction. Une comparaison des résultats de ces méthodes montre que les graphes d'induction, et notamment la méthode SIPINA généralisée à l'aide de nos développements théoriques, présentent un compromis satisfaisant entre les exigences d'explicabilité et d'efficacité. La méthode SIPINA nous permet de mettre en évidence les paramètres caractéristiques des différentes démarches. Des résultats intéressants nous encouragent à valider les règles de diagnostic obtenues, avant de pouvoir mettre en place le système d'identification automatique.

Mots - clés : Extraction de Connaissances à partir de Données, Graphe d'Induction, Discrétisation, Génération et Simplification d'une Base de Règles, Caractérisation de la marche.


Abstract :

In this thesis, we propose new ideas for data mining. Among the different processes used in data mining, we are interested more particularly in the induction graph methods. Our research work is double.

On the one hand, we present a data mining method which can process either symbolic or numeric data. So, we propose a new discretization algorithm, called FUSINTER, in order to better handle numeric data in induction graphs. We compare the results of FUSINTER with those of others discretization methods. Furthermore, the examples must be separable according to the considered attribute in order to discretise the numeric attribute. Thus, we introduce a new version of the non parametric test of runs proposed by A. Mood.

On the other hand, in order to build the knowledge base of an expert system or to better understand a phenomenon, we want to automatically discover knowledge expressed by obvious and short production rules. To do this, we use data mining methods. Because of rule discovery problems, we want to simplify the rule base. Taking into account the limits of the existing simplification methods, we propose an algorithm of automatic extraction, simplification and optimization of rules. This algorithm proceeds by eliminating redundant and incoherent information so to have obvious and short rule base.

In a medical project, physicians bring us the problem of gait characterization in order to build a gait identification system. The aim of our study is to bring out the major determinants of some lameness. Our hypothesis is to represent the gait by the course of the pelvis center. We describe the pelvis center course by spatiotemporal parameters. Among these parameters, we try to find those which are really characteristic of the different gaits. This problem is a data mining problem in finding diagnosis rules. So, we use data mining methods such as statistic methods, neural networks, genetic algorithms, symbolic methods and induction graphs. According to a comparison of the results of these various methods, we find that induction graphs, and specially the SIPINA method generalized with our work, are a good tool for knowledge discovery mainly because results are efficient and easy to understand. The SIPINA method allows us to bring out the major determinants of the different gaits. Interesting results encourage us to validate the rules we obtained, before building a complete gait identification system.

Key - words : Knowledge Discovery from Databases, Induction Graph, Discretization, Rules Discovery and Simplification, the Modelization of the Gait.


Plan:

Résumé

Introduction

Chapitre 1 : Extraction de connaissances et apprentissage automatique

Chapitre 2 : Des méthodes d'ECD ou de discrimination Chapitre 3 : La discrétisation

Chapitre 4 : La génération et la simplification d'une base de règles

Chapitre 5 : Présentation du problème de la caractérisation de la marche

Chapitre 6 : Les premiers résultats sur la caractérisation de la marche

Conclusion générale

Références bibliographiques

Table des matières


Thèse complète