Support de cours DATA MINING

Cette page recense les supports utilisés pour mes enseignements de Data Mining.

Attention, pour la majorité, il s'agit de « slides » imprimés en PDF, donc très peu formalisés, ils mettent avant tout l'accent sur le fil directeur du domaine étudié et recensent les points importants. Pour avoir le détail des explications, les formules et les démonstrations adéquates, il faut (1) venir au cours, (2) récupérer des supports avec un contenu rédactionnel plus conséquent (voir notamment la colonne autres dans le tableau ci-dessous).

Certains supports peuvent être accompagnés de fichiers de données sous forme de classeurs EXCEL utilisés pour illustrer le cours ; parfois également, des didacticiels montrant la mise en oeuvre de la technique avec un logiciel gratuit est proposé.

Les logiciels utilisés sont principalement SIPINA pour les arbres de décision et TANAGRA pour les autres techniques. Leurs sites web respectifs proposent un grand nombre de didacticiels qui permettent d'appréhender les techniques de Data Mining.

Cette page est bien entendu ouverte à tous, étudiants ou pas, de l'Université Lyon 2 ou d'ailleurs. Ces outils (supports de cours, fascicules, tutoriels, logiciels) sont totalement gratuits quel que soit le contexte d'utilisation. C'est très bien, et il en sera toujours ainsi. Si vous êtes une entreprise, vous pouvez nous aider en versant votre taxe d'apprentissage à notre département (Département d'Informatique et de Statistique - Faculté de Sciences Economiques et de Gestion - Université Lyon 2). Nous vous en remercions par avance. Vous contribuerez à donner de meilleures conditions de travail aux étudiants que nous formons.

Ressources - DATA MINING

Ressources

Supports

Autres

Données

Didacticiels

Data Mining -- Generalités

Portail Data Mining – Ressources en ligne

Un portail de portails, un méta-portail en somme, le site vaut avant tout par l'effort d'organisation réalisé. La culture ambiante est très machine & statistical learning.

-

-


Didacticiels

Introduction au Data Mining

Présentation du Data Mining. Différenciation par rapport aux techniques exploratoires des données (Statistique exploratoire, Analyse de Données, etc.).

Catégorisation des techniques de fouille de données selon les objectifs d'une étude et le type des données.

Les ressources bibliographiques, les ressources en ligne, les logiciels et les serveurs de données.

Deux exemples en marketing et catégorisation de textes.

-

-

Apprentissage Supervisé et Scoring

Introduction à l'apprentissage supervisé

Fondements bayesien de l'apprentissage supervisé. Estimation des probabilités avec le modèle multinomial complet. Élaboration d'une règle d'affectation.

Évaluation de l'apprentissage, la matrice de confusion et les ratios associés.

Le principe du partitionnement des données en données « d'apprentissage » et données « test ».

-

Arbres de décision – Introduction

L'apprentissage par partitionnement. Construction d'un arbre de décision sur un jeu de données synthétique.

Principaux points à considérer lors de l'induction d'un arbre de décision à partir de données.

Arbres de décision – CHAID, C4.5 et CART

Les trois principales méthodes d'induction d'arbres proposés dans les logiciels. Les différences et les points communs.

Arbres de régression

La régression par arbres. Une méthode non-linéaire de régression. Rapprochement avec les arbres de décision.

Analyse discriminante prédictive

Un modèle paramétrique de discrimination. Analyse discriminante de Fisher. Évaluation globale du modèle, évaluation individuelle des variables.

Régression logistique

Le modèle LOGIT. Estimation, évaluation globale et évaluation individuelle des variables.
Avec le fascicule de cours "Pratique de la Régression Logistique - Régression logistique binaire et polytomique" (11 chapitres) 2e colonne

Régression logistique polytomique

Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs. Régression logistique multinomiale lorsque Y est nominale. Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels).

Scoring - Le ciblage marketing

Le ciblage clientèle. Construction et lecture de la courbe LIFT (GAIN CHART).

Intégration des coûts de mauvais classement en apprentissage supervisé

Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs. Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost.

Courbe ROC

Évaluation d'un classifieur à l'aide de la courbe ROC. Le critère AUC.

Quelques méthodes non-paramétriques de discrimination

Deux méthodes non-paramétriques de classement dérivés du schéma bayesien : la méthode des K-plus proches voisins et le modèle d'indépendance conditionnelle (Bayesien Naïf).

-

Réseaux de neurones - Perceptron simple et multi-couches

Introduction aux réseaux de neurones artificiels pour l'apprentissage supervisé. La Perceptron. Passage du modèle linéaire au modèle non-linéaire : le perceptron multi-couches.

Tirage rétrospectif et redressement des résultats

Échantillonnage non-représentatif : redressement des résultats. Modification du seuil d'affectation basé sur le score. Utilisation de la courbe ROC à cet effet.



Normalisation des scores

Rendre comparable des scores fournis par des méthodes différentes. Ramener dans l'intervalle [0 ; 1] et harmonisation des distributions. Diagramme de fiabilité.



Méthodes de ré-échantillonnage pour l'évaluation des performances

Inadéquation de l'évaluation en resubstitution. Le schéma apprentissage-test. Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap. Comparaison des performances des techniques supervisées.

Règles d'Association

Règles d'association

Construction des règles d'association : items, itemsets fréquents, règles. Les critères supports, confiance, lift.

Analyse des Données -- Analyse Factorielle

Analyse en Composantes Principales

Construction des axes factoriels. Cercle de corrélations. Projections. Utilisation des variables et individus supplémentaires.

Analyse (Factorielle) des Correspondances Multiples

Construction des axes factoriels. Projections et interprétations. Utilisation des variables et individus supplémentaires.

Analyse Factorielle des Correspondances

Tableau de contingence. Construction des axes factoriels. Projections et interprétations. Projection des points supplémentaires avec un tableur.

Analyse Factorielle Discriminante

Produire des axes factoriels qui permettent de discerner au mieux des groupes d'individus prédéfinis.

Classification automatique -- Clustering

Classification ascendante hiérarchique (CAH)

Construire une typologie (des groupes "similaires" d'individus) en utilisant la classification ascendante hiérarchique. Classification automatique. Clustering en anglais.

Arbres de classification

Construire une typologie (des groupes "similaires" d'individus) en utilisant les arbres de classification. Classification automatique. Clustering en anglais. La méthode s'apparente à une généralisation des arbres de décision - arbres de régression.

Classification de variables

Classification de variables autour des composantes latentes (VARCLUS). L'idée toujours est de découvrir les principales "dimensions" que recèlent les données. La différence ici est que l'on regroupe les variables (selon leur redondance) plutôt que les individus. Les applications vont au delà de la structuration des données.

Régression

Portail régression linéaire multiple

Portail. Données et liens.

-

-

-

Régression linéaire multiple - I

Problématique de la régression. La régression linéaire multiple. Notations, hypothèses et estimation. Evaluation. Mise en oeuvre dans les logiciels et lecture des résultats.

Régression linéaire multiple - II

Autres supports en ligne : "Cours d'économétrie" de P.Deschamps à l'Université de Fribourg ; "Aide-mémoire d'Econométrie" de A.Trognon et J.M. Fournier - ENSAE ; "Pratique de la régression avec R" de J.Faraway (en anglais).

Régression linéaire multiple - III

Pratique de la régression - Diagnostic et sélection de variables

Analyse graphique des résidus. Test de normalité des résidus. Test de Durbin-Watson et des séquences. Détection et traitements des points atypiques et influents. Colinéarité et sélection de variables. Régression sur exogènes qualitatives. Détection des ruptures de structure, test de Chow.

Détection des points atypiques et influents.

Calcul des indicateurs usuels pour la détection des points aberrants et influents dans la régression : Leverage, Résidu Standardisé, Résidu Studentisé, DFFITS, Distance de Cook, COVRATIO, DFBETAS

Régression PLS

Détection et traitement de la colinéarité : la régression sur facteurs et la régression PLS.

Régression linéaire pour le classement.

Utiliser la régression linéaire multiple pour le classement. Comparaison avec la régression logistique et l'analyse discriminante linéaire.

-

-

-

Statistique

Recueil de liens pour les STATS -- Statistiques appliquées

Portail de e-learning : cours, supports, données et exemples traités avec différents logiciels. Statistique Appliquée.

- -

Statistique descriptive

Description statistique, distribution empirique, indicateurs et graphiques.

Probabilités et Statistique

Analyse combinatoire, Théorie des Probabilités, Lois de Probabilités d'usage courant, Test d'adéquation à une loi.

Statistique Inférentielle

Estimation ponctuelle. Estimation par intervalle. Théorie des tests. Quelques tests paramétriques usuels.

Biostatistique

Probabilités et Statistiques. Statistique inférentielle : Estimation ponctuelle et par intervalle, Théorie des tests, etc... à l'usage des biologistes.

-

-

Test de normalité

Test statistique d'adéquation à la loi normale (normality test) : test de Shapiro Wilk, test de Lilliefors, test d'Anderson-Darling, test de D'Agostino, test de Jarque-Bera.

Test de symétrie des distributions : test basé sur le coefficient d'asymétrie, test de Wilcoxon, test de Van der Waerden.

Corrélation et corrélation partielle

Covariance, corrélation linéaire, corrélations croisées, tests de significativité. Corrélation bisériale ponctuelle, corrélation mutuelle, le coefficient phi, rho de Spearman, tau de Kendall, rapport de corrélation. Corrélations partielles et semi-partielles d'ordre p. Corrélation partielle de rangs.

Mesures d'association pour variables nominales

Test d'indépendance du KHI-2. Mesures dérivées du KHI-2 (T de Tschuprow, c de Cramer...). Mesures asymétriques d'association (PRE measures) : Lambda et Tau de Goodman & Kruskal, U de Theil.
Eléments spécifiques aux tableaux 2 x 2 : Q de Yule, Odds-ratio, Risque relatif, correction de Yates.
Coefficient de concordance pour variables nominales : Kappa de Cohen, Kappa de Fleiss, Kappa généralisé.
Mesures d'association pour les variables ordinales (Gamma de Goodman et Kruskal, Tau-b et Tau-c de Kendall, d de Sommers).

Comparaison de populations - Tests paramétriques

Comparaison de 2 moyennes, échantillons indépendants, variances égales et inégales. Comparaison de 2 moyennes, échantillons appariés. Comparaison de variances, échantillons indépendants et appariés. Comparaison de K moyennes, échantillons indépendants (ANOVA) et appariés (blocs aléatoires complets). Test multivariés : T2 de Hotelling, Lambda de Wilks, Trace de Pillai. Test de Bartlett pour comparaison des matrices de variance covariance.

-

Comparaison de populations - Tests non paramétriques

Test de Kolmogorov-Smirnov, test de Kuiper, test de Cramer - von Mises, test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis, test de Mood, test de Klotz, test des signes, test des rangs signés de Wilcoxon pour échantillons appariés, anova de Friedman, test de Mc Nemar, test Q de Cochran, test de Jonckheere-Terpstra, test de Page


Ricco Rakotomalala – Université Lyon 2