Génération Automatique de Connaissances par Induction
S. RABASEDA-LOUDCHER, R. RAKOTOMALALA, M. SEBBAN
E.R.I.C-Lyon Université Lumière Lyon 2
5, avenue P. Mendès-France 69676 Bron Cedex
Tél : 33-4-78-77-23-20 Fax : 33-4-78-77-23-75

Abstract :

Parmi les techniques de Reconnaissance de Formes par Apprentissage supervisé, notre équipe s'intéresse plus particulièrement aux processus arborescents (dont la méthode la plus connue est la méthode C45 de Quinlan, une extension de la méthode ID3) et aux processus non arborescents comme la méthode SIPINA. D'une façon générale ces processus permettent de résoudre un problème d'explication, de classement. Le principe général de ces processus s'exprime ainsi : chercher à discriminer les individus en fonction de variables exogènes considérées comme les meilleures parmi toutes les autres au sens d'un critère donné. Une succession de partitions de plus en plus homogènes (au sens du critère) est construite et les résultats sont présentés dans un graphe appelé arbre de décision. Dans les processus arborescents classiques, la seule opération possible, lors de la construction de l'arbre de décision, est celle de segmentation des individus selon une variable. Le fait d'introduire une opération de fusion (c'est à dire de regrouper des individus appartenant à deux sommets différents de l'arbre) confère à l'algorithme une capacité de minimiser le nombre de sommets terminaux et assure à chacun d'entre eux un effectif suffisamment important, rendant fiable la reconnaissance des individus. Dans ce cas, nous parlerons de processus non arborescents et de graphes d'induction qui constituent une généralisation des arbres de décision au cas non arborescent. Notre équipe a proposé un cadre théorique généralisant ces approches, et dans un tel contexte, les processus arborescents comme la méthode C45 de Quinlan, deviennent un cas particulier des processus non arborescents illustrés par la méthode SIPINA. De plus, les processus d'induction ont comme avantage de fournir des graphes directement traduisibles en propositions logiques. Ces processus peuvent donc être utilisés pour générer automatiquement des connaissances. Les règles de production sont obtenues à partir du graphe et de l'échantillon d'apprentissage [Rabaséda - Loudcher 1994]. Par la suite, ces règles sont évaluées sur l'échantillon test, et peuvent alimenter un système expert dédié à la reconnaissance des individus du domaine considéré. L'extraction automatique des connaissances est le thème fédérateur de notre recherche, mais, afin de donner une dimension concrète à cette recherche, une étude est entreprise avec le laboratoire d'analyse du mouvement de l'hôpital Henry Gabrielle de Lyon. L'objet de cette collaboration est de contribuer à mettre en évidence les paramètres caractéristiques de la marche d'un sujet sain et ceux d'une marche pathologique, afin de définir des critères de normalité de la marche. En effet, malgré l'existence de logiciels d'exploitation numérique et graphique, le dossier de chaque patient comporte encore un trop grand nombre d'informations inutilisées. A l'évidence il est indispensable de mettre en oeuvre des méthodes d'analyse et d'extraction des informations pertinentes. Pour cela, nous faisons donc appel aux méthodes d'Extraction des Connaissances et de Reconnaissance de Formes.

Key words : Apprentissage automatique, Classement, Induction, Règles de Production.

Postscript file

Previous page