Cours d'Analyse Discriminante

L'analyse discriminante est à la fois une méthode prédictive (analyse discriminante linéaire – ADL) et descriptive (analyse factorielle discriminante – AFD). Elle vise à expliquer et prédire l'appartenance des individus à des groupes (des classes), représentés par une variable cible catégorielle, à partir d'une collection de variables explicatives/descriptives, principalement quantitatives, mais qui peuvent être qualitatives moyennant un aménagement.

Ce cours s'inscrit avant tout dans la démarche prédictive. Une fois posées les hypothèses fondatrices de la méthode, nous mettons l'accent sur la construction de fonctions de classement explicites, déployables directement dans la population. Nous nous attardons ensuite sur les procédures d'évaluation des modèles, pris dans leur globalité ou sous l'angle de la contribution des variables. Les questions pratiques telles que la sélection de variables ou l'appréhension des variables prédictives qualitatives nous permettent d'être directement opérationnels pour la mise en oeuvre de la méthode dans des problèmes réels.

Ce cours est dispensé dans notre Master 1 Informatique qui prépare -- entres autres -- au Master SISE - Data Science. Les travaux dirigés sont réalisés sous Python avec principalement le package "scikit-learn".

Ressources en ligne

Ressources

Supports

Ouvrage de référence

Ouvrage de référence pour le cours - Ricco Rakotomalala, "Pratique de l'Analyse Discriminante Linéaire", Mai 2020.

Cet ouvrage, totalement gratuit, détaille les différents aspects de l'analyse discriminante, prédictive (analyse discriminante linéaire) et descriptive (analyse factorielle discriminante). Table des matières : (1) Analyse discriminante linéaire – Principe ; (2) Évaluation statistique ; (3) Traitement des descripteurs qualitatifs - La méthode DISQUAL ; (4) Sélection de variables ; (5) Particularité du problème à (K=2) classes ; (6) Bayésien naïf – Modèle d'indépendance conditionnelle ; (7) Régularisation – Analyse discriminante sur facteurs de l'ACP et de la régression PLS ; (8) Analyse factorielle discriminante ; (9) Analyse des correspondances discriminante ; (10) Outils logiciels ; (11) Références ; (12) Annexes. Package : La librairie « discriminR » pour R permet de mettre en œuvre les principales idées mis en avant dans l'ouvrage, elle propose des sorties aux standards des logiciels de référence.

Principaux slides pour le cours

Analyse discriminante linéaire - Méthode predictive. Modèle paramétrique de discrimination. Hypothèses fondatrices. Analyse discriminante de Fisher. Evaluation globale et pertinence des variables. Sélection de variables. Fonction de classement. Fonction score. Triatement des variables qualitatives.

Analyse factorielle discriminante - Méthode descriptive. Construction des axes factorielles. Fonctions discriminantes canoniques. Structures canoniques totales, intra-classes, inter-classes. Interprétation des facteurs. Choix du nombre de facteurs. Tests de Fisher (Rao) et du khi-2 (Bartlett). Extension à la démarche prédictive. Classement des individus à partir de leurs coordonnées factorielles. Distance de Mahalanobis.

Analyse des correspondances discriminante - Méthode descriptive. Extension de l'analyse factorielle discriminante aux descripteurs catégoriels. Construction des facteurs. Interprétation des axes factoriels. Traitement des individus supplémentaires. Affectation aux classes. Distance du KHI-2.

Régression linéaire pour le classement. Utilisation de la régression linéaire multiple pour le classement. Equivalence avec l'analyse discriminante linéaire dans le cadre binaire. Tests de significativité globale et individuelles des coefficients. Formules de passage entre les coefficients des fonctions de classement.

Classifieur bayésien naïf. Principe de l'indépendance conditionnelle. Cas des descripteurs catégoriels et quantitatifs. Extraction de fonctions de classement. Sélection de variables.

Autres slides concernant la data science, dont l'apprentissage supervisé. Couvre les principales méthodes du traitement exploratoire des données (classification automatique, analyse factorielle, etc.), de l'économétrie (régression linéaire simple et multiple) et des statistiques (comparaison des populations, tests paramétriques et tests non paramétriques).

Tutoriels

Analyse discriminante linéaire sous Python. Pratique de l'analyse discriminante prédictive sous Python avec le package "sckit-learn". Equivalences avec la proc discrim de SAS. Evaluation globale du modèle et des contributions des variables. Frontière de décision.

Analyse discriminante linéaire sous R. Pratique de l'analyse discriminante prédictive sous R avec la fonction lda() du package "MASS". Analyse factorielle discriminante. Equivalences avec la proc discrim de SAS. Evaluation globale du modèle et des contributions des variables. Sélection de variables. Stepdisc. Package "klaR".

Analyse discriminante linéaire - Comparaison de logiciels. Pratique de l'analyse discriminante prédictive sous TANAGRA avec les composants "Linear Discriminant Analysis" et "Stepdisc". Analyse factorielle discriminante sous TANAGRA avec "Canonical Discriminant Analysis". Comparaisons avec les outils dédiés de SAS (proc discrim et proc stepdisc) ; R (lda) ; SPSS.

Pipeline sous Python - La méthode DISQUAL. Pratique de l'analyse discriminante prédictive sur variables explicatives qualitatives. Construction des Pipeline sous Python. Identification du nombre de facteurs optimal pour la prédiction. Grille de recherche. Package "scikit-learn".

Classifieurs linéaires. Comportement de plusieurs classifieurs linéaires sur un exemple artificiel, dont l'analyse discriminante liéaire. Frontière de séparation. Modèle bayésien naïf. Régression Logistique. Support Vector Machine (SVM) linéaire. Perceptron simple (réseau de neurones). Utilisation de différents outils : Knime, Orange Machine Learning, RapidMiner, Weka.

StepDisc - Analyse discriminante. Sélection de variables. Méthodes ascendantes et descendantes. Evaluation bootstrap de l'erreur de prédiction.

Analyse discriminante et régression linéaire. Equivalences entre l'analyse discriminante linéaire binaire et régression linéaire multiple. Formules de transition. Classes équilibrées et déséquilibrées.

Analyse discriminante PLS. Régularisation. Analyse discriminante prédictive sur les axes de la régression PLS. Différentes approches de combinaison des deux approches.

Modèle bayésien naïf pour prédicteurs continus. Principe du modèle d'indépendance conditionnelle. Hypothèses fondatrices. Bayésien naïf paramétrique. Extraction des coefficients des fonctions de classement. Evaluation des variables prédictives.


Ricco Rakotomalala – Université Lyon 2