Dans cette thèse, notre objectif méthodologique consiste à contribuer à la mise en place
de nouvelles techniques d'Extraction de Connaissances à partir de Données (ECD).
Parmi les méthodes d'ECD, nous nous intéressons plus particulièrement à celles basées
sur les graphes d'induction. Notre contribution méthodologique est double.
D'une part, nous souhaitons proposer une méthode d'ECD capable de manipuler simultanément
des données numériques et symboliques. Notre contribution porte sur une meilleure prise
en compte des données numériques dans les graphes d'induction avec la constitution d'un
nouvel algorithme de discrétisation, baptisé FUSINTER. Les résultats obtenus par FUSINTER
sont comparés à ceux obtenus par d'autres techniques. Nous discutons également de l'évaluation,
avant toute discrétisation, de la séparabilité des exemples selon les classes, par le test non
paramétrique des séquences de A. Mood.
D'autre part, pour alimenter la base de connaissances d'un système expert ou pour améliorer
la compréhension d'un problème, nous souhaitons générer, à partir d'une méthode d'ECD, des
connaissances exprimées sous forme de règles claires et concises. Suite aux problèmes engendrés
par cette génération, nous nous posons le problème de la simplification d'une base de règles.
En réponse aux limites des différentes approches de simplification, nous introduisons notre
propre algorithme qui permet d'éliminer les informations redondantes et incohérentes pour
obtenir une base optimale avec des règles en faible nombre et concises.
Dans le cadre d'un projet médical, des médecins nous ont soumis un problème concernant la
caractérisation de la marche dans le but de la constitution d'un système d'identification
automatique du type de marche. Notre objectif dans le cadre de cette application est de
mettre en évidence les paramètres caractéristiques de certaines boiteries. Nous posons comme
hypothèse que le déplacement du Centre du Bassin constitue un résumé de la marche et est
sensible à ses perturbations. Nous décrivons la trajectoire du Centre du Bassin par des
paramètres spatiaux et temporels. Parmi ces paramètres descriptifs, nous souhaitons trouver
ceux caractéristiques des différents types de marche. Ce projet comporte un problème d'ECD
avec la détermination des règles de diagnostic des différents types de marche. Par conséquent,
nous utilisons comme méthodes d'ECD, des méthodes d'origine statistique, neuronale, génétique,
symbolique ou à base de graphe d'induction. Une comparaison des résultats de ces méthodes
montre que les graphes d'induction, et notamment la méthode SIPINA généralisée à l'aide de nos
développements théoriques, présentent un compromis satisfaisant entre les exigences
d'explicabilité et d'efficacité. La méthode SIPINA nous permet de mettre en évidence les
paramètres caractéristiques des différentes démarches. Des résultats intéressants nous
encouragent à valider les règles de diagnostic obtenues, avant de pouvoir mettre en place le
système d'identification automatique.
Mots - clés : Extraction de Connaissances à partir de Données, Graphe d'Induction,
Discrétisation, Génération et Simplification d'une Base de Règles, Caractérisation de la marche.
In this thesis, we propose new ideas for data mining. Among the different processes used in
data mining, we are interested more particularly in the induction graph methods. Our research
work is double.
On the one hand, we present a data mining method which can process either symbolic or numeric
data. So, we propose a new discretization algorithm, called FUSINTER, in order to better handle
numeric data in induction graphs. We compare the results of FUSINTER with those of others
discretization methods. Furthermore, the examples must be separable according to the considered
attribute in order to discretise the numeric attribute. Thus, we introduce a new version of the
non parametric test of runs proposed by A. Mood.
On the other hand, in order to build the knowledge base of an expert system or to better
understand a phenomenon, we want to automatically discover knowledge expressed by obvious
and short production rules. To do this, we use data mining methods. Because of rule discovery
problems, we want to simplify the rule base. Taking into account the limits of the existing
simplification methods, we propose an algorithm of automatic extraction, simplification and
optimization of rules. This algorithm proceeds by eliminating redundant and incoherent
information so to have obvious and short rule base.
In a medical project, physicians bring us the problem of gait characterization in order to
build a gait identification system. The aim of our study is to bring out the major
determinants of some lameness. Our hypothesis is to represent the gait by the course of the
pelvis center. We describe the pelvis center course by spatiotemporal parameters. Among these
parameters, we try to find those which are really characteristic of the different gaits. This
problem is a data mining problem in finding diagnosis rules. So, we use data mining methods
such as statistic methods, neural networks, genetic algorithms, symbolic methods and induction
graphs. According to a comparison of the results of these various methods, we find that
induction graphs, and specially the SIPINA method generalized with our work, are a good tool
for knowledge discovery mainly because results are efficient and easy to understand. The
SIPINA method allows us to bring out the major determinants of the different gaits.
Interesting results encourage us to validate the rules we obtained, before building a complete
gait identification system.
Key - words : Knowledge Discovery from Databases, Induction Graph,
Discretization, Rules Discovery and Simplification, the Modelization of
the Gait.