Support de cours DATA MINING

Cette page recense les supports utilisés pour mes enseignements de Data Mining au sein du Département Informatique et Statistique (DIS) de l'Université Lyon 2, principalement en Master 2 Statistique et Informatique.

Attention, pour la majorité, il s'agit de « slides » imprimés en PDF, donc très peu formalisés, ils mettent avant tout l'accent sur le fil directeur du domaine étudié et recensent les points importants. Pour avoir le détail des explications, les formules et les démonstrations adéquates, il faut (1) venir au cours, (2) récupérer des supports avec un contenu rédactionnel plus conséquent (voir notamment la colonne autres dans le tableau ci-dessous).

Certains supports peuvent être accompagnés de fichiers de données sous forme de classeurs EXCEL utilisés pour illustrer le cours ; parfois également, des didacticiels montrant la mise en oeuvre de la technique avec un logiciel gratuit est proposé.

Les logiciels utilisés sont principalement SIPINA pour les arbres de décision, TANAGRA et R pour les autres techniques. De très nombreux tutoriels permettent d'appréhender la mise en oeuvre de ces techniques de Data Mining vus en cours.

Cette page est bien entendu ouverte à tous les "data miners", étudiants ou pas, de l'Université Lyon 2 ou d'ailleurs. Ces outils (supports de cours, fascicules, tutoriels, logiciels) sont totalement gratuits quel que soit le contexte d'utilisation. Il en sera toujours ainsi (non, non, pas de bouquins en préparation qui pourraient remettre en cause l'existence de ce site, les PDF de mes ouvrages sont -- et seront toujours -- accessibles gratuitement en ligne). Si vous êtes une entreprise, vous pouvez nous aider en versant votre taxe d'apprentissage à notre département (Département d'Informatique et de Statistique - Université Lyon 2). Nous vous en remercions par avance. Vous contribuerez à donner de meilleures conditions de travail aux étudiants que nous formons.

Ressources - DATA MINING

Ressources

Supports

Autres

Données

Didacticiels

Data Mining -- Generalités

Portail Data Mining – Ressources en ligne

Un portail de portails, un méta-portail en somme, le site vaut avant tout par l'effort d'organisation réalisé. La culture ambiante est très machine & statistical learning.

-

-


Didacticiels

Introduction au Data Mining

Présentation du Data Mining. Différenciation par rapport aux techniques exploratoires des données (Statistique exploratoire, Analyse de Données, etc.).

Catégorisation des techniques de fouille de données selon les objectifs d'une étude et le type des données.

Les ressources bibliographiques, les ressources en ligne, les logiciels et les serveurs de données.

Deux exemples en marketing et catégorisation de textes.

-

Introduction au data science – Du data mining au big data

Data Science : Evolution, révolution, replâtrage des statistiques (modélisation statistique) ? Présentation du « data science » sous le prisme de l’évolution des pratiques et enjeux de l’analyse de données (data analytics) liée à la multiplicité des données disponibles, au sein des entreprises (data mining), mais aussi à l’extérieur des l’entreprises. Données multi-sources (entreprises, collectivités [amplifié par le phénomène « open data »], le citoyen lambda : internet source inépuisable d’informations…), multimodales (tout peut transmettre des informations : ordinateur, smartphone, GPS, même sa propre TV, etc.), multi-formats (texte, vidéo, images, etc.). Place centrale de la volumétrie dans ce nouveau contexte (big data, big analytics).

-

Apprentissage Supervisé et Scoring

Introduction à l'apprentissage supervisé

Fondements bayesien de l'apprentissage supervisé. Estimation des probabilités avec le modèle multinomial complet. Élaboration d'une règle d'affectation.

Évaluation de l'apprentissage, la matrice de confusion et les ratios associés.

Le principe du partitionnement des données en données « d'apprentissage » et données « test ».

-

Arbres de décision – Introduction

L'apprentissage par partitionnement. Construction d'un arbre de décision sur un jeu de données synthétique.

Principaux points à considérer lors de l'induction d'un arbre de décision à partir de données.

Arbres de décision – CHAID, C4.5 et CART

Les trois principales méthodes d'induction d'arbres proposés dans les logiciels. Les différences et les points communs.

Arbres de régression

La régression par arbres. Une méthode non-linéaire de régression. Rapprochement avec les arbres de décision.

Analyse discriminante prédictive

Un modèle paramétrique de discrimination. Analyse discriminante de Fisher. Évaluation globale du modèle, évaluation individuelle des variables.

Régression logistique

Le modèle LOGIT. Estimation, évaluation globale et évaluation individuelle des variables.
Avec le fascicule de cours "Pratique de la Régression Logistique - Régression logistique binaire et polytomique" (11 chapitres) 2e colonne

Régression logistique polytomique

Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs. Régression logistique multinomiale lorsque Y est nominale. Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels).

Classifieur Bayesien Naïf (Le modèle d'indépendance conditionnelle)

Principe de l'indépendance conditionnelle. Cas des prédicteurs continus. Cas des prédicteurs discrets. Construction d'un modèle explicite linéaire. Sélection de variables.


Scoring - Le ciblage marketing

Le ciblage clientèle. Construction et lecture de la courbe LIFT (GAIN CHART).

Grille de score

Elaboration de la grille de score à partir des résultats de la régression logistique. Méthode Disqual et scoring.


Filtrage des prédicteurs en apprentissage supervisé.

Approche FILTRE préalable à l'apprentissage supervisé. Techniques de ranking. Techniques de sélection basées sur la corrélation : information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks.

Intégration des coûts de mauvais classement en apprentissage supervisé

Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs. Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost.

Courbe ROC

Évaluation d'un classifieur à l'aide de la courbe ROC. Le critère AUC.

Quelques méthodes non-paramétriques de discrimination

Deux méthodes non-paramétriques de classement dérivés du schéma bayesien : la méthode des K-plus proches voisins et le modèle d'indépendance conditionnelle (Bayesien Naïf -- voir plus haut pour plus de détails sur cette méthode).

-

Réseaux de neurones - Perceptron simple et multi-couches

Introduction aux réseaux de neurones artificiels pour l'apprentissage supervisé. La Perceptron. Passage du modèle linéaire au modèle non-linéaire : le perceptron multi-couches.

Tirage rétrospectif et redressement des résultats

Échantillonnage non-représentatif : redressement des résultats. Modification du seuil d'affectation basé sur le score. Utilisation de la courbe ROC à cet effet.



Normalisation des scores

Rendre comparable des scores fournis par des méthodes différentes. Ramener dans l'intervalle [0 ; 1] et harmonisation des distributions. Diagramme de fiabilité.



Méthodes de ré-échantillonnage pour l'évaluation des performances

Inadéquation de l'évaluation en resubstitution. Le schéma apprentissage-test. Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap. Comparaison des performances des techniques supervisées.

Règles d'Association

Règles d'association

Construction des règles d'association : items, itemsets fréquents, règles. Les critères supports, confiance, lift.

Analyse des Données -- Analyse Factorielle

Analyse en Composantes Principales (ACP)

Construction des axes factoriels. Cercle de corrélations. Projections. Utilisation des variables et individus supplémentaires. Analyse en facteurs principaux.

Analyse (Factorielle) des Correspondances Multiples (AFCM ou ACM)

Construction des axes factoriels. Projections et interprétations. Utilisation des variables et individus supplémentaires.

Analyse Factorielle de Données Mixtes (AFDM)

Analyse factorielle pour les variables actives quantitatives et qualitatives. Construction des axes factoriels. Lecture des résultats.

Analyse Factorielle des Correspondances (AFC)

Tableau de contingence. Construction des axes factoriels. Projections et interprétations. Projection des points supplémentaires avec un tableur.

Analyse Factorielle Discriminante (AFD)

Analyse discriminante descriptive (ADD). Produire des axes factoriels qui permettent de discerner au mieux des groupes d'individus prédéfinis.

Analyse des Correspondances Discriminante (ACD)

Analyse factorielle discriminante pour les descripteurs qualitatifs. Produire des variables synthétiques (des facteurs) à partir des indicatrices des descripteurs. Elles permettent de discerner au mieux des groupes d'individus prédéfinis.

Classification automatique -- Clustering

Classification ascendante hiérarchique (CAH)

Construire une typologie (des groupes "similaires" d'individus) en utilisant la classification ascendante hiérarchique. Classification automatique. Clustering en anglais.

Arbres de classification

Construire une typologie (des groupes "similaires" d'individus) en utilisant les arbres de classification. Classification automatique. Clustering en anglais. La méthode s'apparente à une généralisation des arbres de décision - arbres de régression.

Classification de variables

Classification de variables autour des composantes latentes (VARCLUS). L'idée toujours est de découvrir les principales "dimensions" que recèlent les données. La différence ici est que l'on regroupe les variables (selon leur redondance) plutôt que les individus. Les applications vont au delà de la structuration des données.

Régression

Portail régression linéaire multiple

Portail. Données et liens.

-

-

-

Régression linéaire multiple

Problématique de la régression. La régression linéaire simple et multiple. Notations, hypothèses et estimation. Evaluation. Mise en oeuvre dans les logiciels et lecture des résultats.

Régression linéaire multiple - Pratique de la régression - Diagnostic et sélection de variables

Analyse graphique des résidus. Test de normalité des résidus. Test de Durbin-Watson et des séquences. Détection et traitements des points atypiques et influents. Colinéarité et sélection de variables. Régression sur exogènes qualitatives. Détection des ruptures de structure, test de Chow.

Détection des points atypiques et influents.

Calcul des indicateurs usuels pour la détection des points aberrants et influents dans la régression : Leverage, Résidu Standardisé, Résidu Studentisé, DFFITS, Distance de Cook, COVRATIO, DFBETAS

Régression PLS

Détection et traitement de la colinéarité : la régression sur facteurs et la régression PLS.

Régression linéaire pour le classement.

Utiliser la régression linéaire multiple pour le classement. Comparaison avec la régression logistique et l'analyse discriminante linéaire.

Statistique

Recueil de liens pour les STATS -- Statistiques appliquées

Portail de e-learning : cours, supports, données et exemples traités avec différents logiciels. Statistique Appliquée.

- -

Statistique descriptive

Description statistique, distribution empirique, indicateurs et graphiques.

Probabilités et Statistique

Analyse combinatoire, Théorie des Probabilités, Lois de Probabilités d'usage courant, Test d'adéquation à une loi.

Statistique Inférentielle

Estimation ponctuelle. Estimation par intervalle. Théorie des tests. Quelques tests paramétriques usuels.

Biostatistique

Probabilités et Statistiques. Statistique inférentielle : Estimation ponctuelle et par intervalle, Théorie des tests, etc... à l'usage des biologistes.

-

-

Test de normalité

Test statistique d'adéquation à la loi normale (normality test) : test de Shapiro Wilk, test de Lilliefors, test d'Anderson-Darling, test de D'Agostino, test de Jarque-Bera.

Test de symétrie des distributions : test basé sur le coefficient d'asymétrie, test de Wilcoxon, test de Van der Waerden.

Corrélation et corrélation partielle

Covariance, corrélation linéaire, corrélations croisées, tests de significativité. Corrélation bisériale ponctuelle, corrélation mutuelle, le coefficient phi, rho de Spearman, tau de Kendall, rapport de corrélation. Corrélations partielles et semi-partielles d'ordre p. Corrélation partielle de rangs.

Mesures d'association pour variables nominales

Test d'indépendance du KHI-2. Mesures dérivées du KHI-2 (T de Tschuprow, c de Cramer...). Mesures asymétriques d'association (PRE measures) : Lambda et Tau de Goodman & Kruskal, U de Theil.
Eléments spécifiques aux tableaux 2 x 2 : Q de Yule, Odds-ratio, Risque relatif, correction de Yates.
Coefficient de concordance pour variables nominales : Kappa de Cohen, Kappa de Fleiss, Kappa généralisé.
Mesures d'association pour les variables ordinales (Gamma de Goodman et Kruskal, Tau-b et Tau-c de Kendall, d de Sommers).

Comparaison de populations - Tests paramétriques

Comparaison de 2 moyennes, échantillons indépendants, variances égales et inégales. Comparaison de 2 moyennes, échantillons appariés. Comparaison de variances, échantillons indépendants et appariés. Comparaison de K moyennes, échantillons indépendants (ANOVA) et appariés (blocs aléatoires complets). Test multivariés : T2 de Hotelling, Lambda de Wilks, Trace de Pillai. Test de Bartlett pour comparaison des matrices de variance covariance.

-

Comparaison de populations - Tests non paramétriques

Test de Kolmogorov-Smirnov, test de Kuiper, test de Cramer - von Mises, test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis, test de Mood, test de Klotz, test des signes, test des rangs signés de Wilcoxon pour échantillons appariés, anova de Friedman, test de Mc Nemar, test Q de Cochran, test de Jonckheere-Terpstra, test de Page


Ricco Rakotomalala – Université Lyon 2