Attention, pour la majorité, il s'agit de « slides »
imprimés en PDF, donc très peu formalisés, ils
mettent avant tout l'accent sur le fil directeur du domaine étudié
et recensent les points importants. Pour avoir le détail des
explications, les formules et les démonstrations adéquates,
il faut (1) venir au cours, (2) récupérer des supports
avec un contenu rédactionnel plus conséquent (voir notamment la colonne autres dans le tableau ci-dessous).
Certains supports peuvent être accompagnés
de fichiers de données sous forme de classeurs EXCEL utilisés
pour illustrer le cours ; parfois également, des didacticiels
montrant la mise en oeuvre de la technique avec un logiciel gratuit
est proposé.
Cette page est bien entendu ouverte à tous les "data miners", étudiants ou pas, de l'Université Lyon 2 ou
d'ailleurs. Ces outils (supports de cours, fascicules, tutoriels, logiciels)
sont totalement gratuits quel que soit le contexte d'utilisation. Il en sera toujours ainsi
(non, non, pas de bouquins en préparation qui pourraient remettre en cause l'existence de ce site, les PDF de mes ouvrages sont
-- et seront toujours -- accessibles gratuitement en ligne). Si vous êtes une entreprise, vous pouvez nous aider en versant votre
taxe d'apprentissage à notre département (Département
d'Informatique et de Statistique - Faculté de Sciences Economiques et de
Gestion - Université Lyon 2). Nous vous en remercions par avance. Vous
contribuerez à donner de meilleures conditions de travail aux étudiants
que nous formons.
|
Ressources
|
Supports
|
Autres
|
Données
|
Didacticiels
|
Data Mining -- Generalités |
|
Portail Data Mining – Ressources en
ligne
Un portail de portails, un méta-portail
en somme, le site vaut avant tout par l'effort d'organisation
réalisé. La culture ambiante est très machine
& statistical learning.
|

|
-
|
-
|
 Didacticiels
|
|
Introduction au Data Mining
Présentation du Data Mining.
Différenciation par rapport aux techniques exploratoires
des données (Statistique exploratoire, Analyse de Données,
etc.).
Catégorisation des techniques de fouille
de données selon les objectifs d'une étude et le
type des données.
Les ressources bibliographiques, les ressources
en ligne, les logiciels et les serveurs de données.
Deux exemples en marketing et catégorisation
de textes.
|

|

|
-
|
-
|
Apprentissage Supervisé et Scoring |
|
Introduction à l'apprentissage
supervisé
Fondements bayesien de l'apprentissage
supervisé. Estimation des probabilités avec le
modèle multinomial complet. Élaboration d'une règle
d'affectation.
Évaluation de l'apprentissage, la
matrice de confusion et les ratios associés.
Le principe du partitionnement des données
en données « d'apprentissage » et
données « test ».
|

|
|

|
-
|
|
Arbres de décision –
Introduction
L'apprentissage par partitionnement.
Construction d'un arbre de décision sur un jeu de données
synthétique.
Principaux points à considérer
lors de l'induction d'un arbre de décision à partir
de données.
|

|
|

|
|
|
Arbres de décision – CHAID,
C4.5 et CART
Les trois principales méthodes
d'induction d'arbres proposés dans les logiciels. Les
différences et les points communs.
|

|
|

|
|
|
Arbres de régression
La régression par arbres. Une méthode
non-linéaire de régression. Rapprochement avec les
arbres de décision.
|

|
|

|

|
|
Analyse discriminante prédictive
Un modèle paramétrique de
discrimination. Analyse discriminante de Fisher. Évaluation
globale du modèle, évaluation individuelle des
variables.
|

|

|

|

|
|
Régression logistique
Le modèle
LOGIT. Estimation, évaluation globale et évaluation
individuelle des variables.
Avec le fascicule de cours "Pratique de la Régression Logistique - Régression logistique binaire et polytomique" (11 chapitres) 2e colonne
|
|
|

|
|
|
Régression logistique polytomique
Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs.
Régression logistique multinomiale lorsque Y est nominale. Régression logistique polytomique ordinale lorsque Y est ordinale
(odds adjacents, odds cumulatifs proportionnels).
|
|
|

|
|
|
Classifieur Bayesien Naïf (Le modèle d'indépendance conditionnelle)
Principe de l'indépendance conditionnelle. Cas des prédicteurs continus. Cas des prédicteurs discrets. Construction d'un modèle explicite linéaire. Sélection de variables.
|
|
|
|
|
|
Scoring - Le ciblage marketing
Le ciblage clientèle. Construction et
lecture de la courbe LIFT (GAIN CHART).
|

|

|

|
|
|
Intégration des coûts de mauvais classement en apprentissage supervisé
Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs. Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost.
|

|

|

|
|
|
Courbe ROC
Évaluation d'un classifieur à
l'aide de la courbe ROC. Le critère AUC.
|

|

|

|

|
|
Quelques méthodes non-paramétriques
de discrimination
Deux méthodes non-paramétriques
de classement dérivés du schéma bayesien : la
méthode des K-plus proches voisins et le modèle
d'indépendance conditionnelle (Bayesien Naïf -- voir plus haut pour plus de détails sur cette méthode).
|

|
-
|

|

|
|
Réseaux de neurones - Perceptron
simple et multi-couches
Introduction aux réseaux de neurones
artificiels pour l'apprentissage supervisé. La Perceptron.
Passage du modèle linéaire au modèle
non-linéaire : le perceptron multi-couches.
|

|

|

|

|
|
Tirage rétrospectif et redressement
des résultats
Échantillonnage non-représentatif
: redressement des résultats. Modification du seuil
d'affectation basé sur le score. Utilisation de la courbe
ROC à cet effet.
|

|

|
|
|
|
Normalisation des scores
Rendre comparable des scores fournis par des
méthodes différentes. Ramener dans l'intervalle [0 ;
1] et harmonisation des distributions. Diagramme de fiabilité.
|

|

|
|
|
|
Méthodes de ré-échantillonnage
pour l'évaluation des performances
Inadéquation
de l'évaluation en resubstitution. Le schéma
apprentissage-test. Les techniques de ré-échantillonnage
: validation croisée, leave-one-out, bootstrap. Comparaison des performances des techniques supervisées.
|

|
|
|
|
Règles d'Association |
|
Règles d'association
Construction des règles d'association :
items, itemsets fréquents, règles. Les critères
supports, confiance, lift.
|

|
|
 
|
 
|
Analyse des Données -- Analyse Factorielle |
|
Analyse en Composantes Principales
Construction des axes factoriels. Cercle de corrélations. Projections. Utilisation des variables et individus supplémentaires.
|

|

|

|

|
|
Analyse (Factorielle) des Correspondances Multiples
Construction des axes factoriels. Projections et interprétations. Utilisation des variables et individus supplémentaires.
|

|

|

|

|
|
Analyse Factorielle des Correspondances
Tableau de contingence. Construction des axes factoriels. Projections et interprétations. Projection des points supplémentaires avec un tableur.
|

|

|

|

|
|
Analyse Factorielle Discriminante
Produire des axes factoriels qui permettent de discerner au mieux des groupes d'individus prédéfinis.
|

|
|

|

|
Classification automatique -- Clustering |
|
Classification ascendante hiérarchique (CAH)
Construire une typologie (des groupes "similaires" d'individus) en utilisant la classification ascendante hiérarchique. Classification automatique. Clustering en anglais.
|

|

|

|

|
|
Arbres de classification
Construire une typologie (des groupes "similaires" d'individus) en utilisant les arbres de classification. Classification automatique. Clustering en anglais. La méthode s'apparente à une généralisation des arbres de décision - arbres de régression.
|

|

|

|

|
|
Classification de variables
Classification de variables autour des composantes latentes (VARCLUS). L'idée toujours est de découvrir les principales "dimensions" que recèlent les données. La différence ici est que l'on regroupe les variables (selon leur redondance) plutôt que les individus. Les applications vont au delà de la structuration des données.
|

|

|

|

|
Régression |
|
Portail régression linéaire multiple
Portail. Données et liens.
|

|
-
|
-
|
-
|
|
Régression linéaire multiple - I
Problématique de la régression. La régression linéaire simple et multiple. Notations,
hypothèses et estimation. Evaluation. Mise en oeuvre dans les logiciels et lecture des résultats.
|
|

|

|

|
|
Régression linéaire multiple - II
Autres supports en ligne : "Cours d'économétrie" de P.Deschamps à l'Université de Fribourg ; "Aide-mémoire d'Econométrie" de A.Trognon et J.M. Fournier - ENSAE ; "Pratique de la régression avec R" de J.Faraway (en anglais).
|

|

|

|

|
|
Régression linéaire multiple - III
Pratique de la régression - Diagnostic et sélection de variables
Analyse graphique des résidus. Test de normalité des résidus. Test de Durbin-Watson et des séquences. Détection et traitements des points atypiques et influents. Colinéarité et sélection de variables. Régression sur exogènes qualitatives. Détection des ruptures de structure, test de Chow.
|

|

|

|

|
|
Détection des points atypiques et influents.
Calcul des indicateurs usuels pour la détection des points aberrants et influents dans la régression : Leverage, Résidu Standardisé, Résidu Studentisé, DFFITS, Distance de Cook, COVRATIO, DFBETAS
|

|

|

|

|
|
Régression PLS
Détection et traitement de la colinéarité : la régression sur facteurs et la régression PLS.
|

|

|

|

|
|
Régression linéaire pour le classement.
Utiliser la régression linéaire multiple pour le classement. Comparaison avec la régression logistique et l'analyse discriminante linéaire.
|

|
-
|
-
|
-
|
Statistique |
|
Recueil de liens pour les STATS -- Statistiques appliquées
Portail de e-learning : cours, supports, données et exemples traités avec différents logiciels. Statistique Appliquée.
|

|

|
-
|
-
|
|
Statistique descriptive
Description statistique, distribution empirique, indicateurs et graphiques.
|

|

|

|

|
|
Probabilités et Statistique
Analyse combinatoire, Théorie des Probabilités, Lois de Probabilités d'usage courant, Test d'adéquation à une loi.
|

|

|

|

|
|
Statistique Inférentielle
Estimation ponctuelle. Estimation par intervalle. Théorie des tests. Quelques tests paramétriques usuels.
|

|

|

|

|
|
Biostatistique
Probabilités et Statistiques. Statistique inférentielle : Estimation ponctuelle et par intervalle, Théorie des tests, etc... à l'usage des biologistes.
|

|

|
-
|
-
|
|
Test de normalité
Test statistique d'adéquation à la loi normale (normality test) : test de Shapiro Wilk, test de Lilliefors, test d'Anderson-Darling, test de D'Agostino, test de Jarque-Bera.
Test de symétrie des distributions : test basé sur le coefficient d'asymétrie, test de Wilcoxon, test de Van der Waerden.
|

|

|

|

|
|
Corrélation et corrélation partielle
Covariance, corrélation linéaire, corrélations croisées, tests de significativité.
Corrélation bisériale ponctuelle, corrélation mutuelle, le coefficient phi, rho de Spearman, tau de Kendall, rapport de corrélation.
Corrélations partielles et semi-partielles d'ordre p. Corrélation partielle de rangs.
|


|


|

|

|
|
Mesures d'association pour variables nominales
Test d'indépendance du KHI-2. Mesures dérivées du KHI-2 (T de Tschuprow, c de Cramer...). Mesures asymétriques d'association (PRE measures) : Lambda et Tau de Goodman & Kruskal, U de Theil. Eléments spécifiques aux tableaux 2 x 2 : Q de Yule, Odds-ratio, Risque relatif, correction de Yates. Coefficient de concordance pour variables nominales : Kappa de Cohen, Kappa de Fleiss, Kappa généralisé.
Mesures d'association pour les variables ordinales (Gamma de Goodman et Kruskal, Tau-b et Tau-c de Kendall, d de Sommers).
|

|

|
|
|
|
Comparaison de populations - Tests paramétriques
Comparaison de 2 moyennes, échantillons indépendants, variances égales et inégales.
Comparaison de 2 moyennes, échantillons appariés. Comparaison de variances, échantillons indépendants et appariés.
Comparaison de K moyennes, échantillons indépendants (ANOVA) et appariés (blocs aléatoires complets).
Test multivariés : T2 de Hotelling, Lambda de Wilks, Trace de Pillai. Test de Bartlett pour comparaison des matrices de variance covariance.
|
|
|
-
|
|
|
Comparaison de populations - Tests non paramétriques
Test de Kolmogorov-Smirnov, test de Kuiper, test de Cramer - von Mises, test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis, test de Mood, test de Klotz, test des signes, test des rangs signés de Wilcoxon pour échantillons appariés, anova de Friedman, test de Mc Nemar, test Q de Cochran, test de Jonckheere-Terpstra, test de Page
|
|
|
|
|