Cours de Régression Logistique

La régression logistique est une technique prédictive. Elle vise à construire un modèle permettant de prédire / expliquer les valeurs prises par une variable cible qualitative (le plus souvent binaire, on parle alors de régression logistique binaire ; si elle possède plus de 2 modalités, on parle de régression logistique polytomique) à partir d’un ensemble de variables explicatives quantitatives ou qualitatives (un codage est nécessaire dans ce cas).

Dans ce cours, les bases théoriques sont certes développées : hypothèse fondamentale de la régression logistique, la maximisation de la vraisemblance, le principe des tests fondés sur le rapport de vraisemblance. Mais nous mettrons surtout l’accent sur les aspects pratiques, relativement basiques dans un premier temps : test de significativité des coefficients, intervalles de confiances, prédiction ; assez avancés - et qui font tout le sel de la régression logistique - dans un second temps : l’interprétation des coefficients sous forme d’odds-ratio, les différentes types de codage des variables explicatives et leur impact sur l’interprétation, les stratégies de sélection de variables, résoudre le problème de la non-linéarité, etc.

Autre versant qui sera mis en avant, nous mettrons l’accent sur la mise en œuvre de la méthode dans les applications réelles. En effet, la régression logistique est une technique très populaire, elle est exploitée dans différentes domaines allant du marketing à l’épidémiologie) (voir le sondage de Stéphane Tufféry sur le site Data Mining et Scoring : Quelle technique de data mining utilisez-vous le plus ? - La régression logistique arrive très largement en tête devant les arbres de décision et l’analyse discriminante). Cela implique l’étude d’outils et des procédures spécifiques, notamment pour l’évaluation des modèles (courbe de gain en scoring, courbe ROC, procédures de ré-échantillonnage lorsque la base ne peut pas être scindée en apprentissage et test, etc.).

Enfin, pour mieux apprécier l’intérêt de l’approche, nous la comparerons – tant du point de vue théorique que pratique - avec d’autres techniques prédictives telles que les arbres de décision, les réseaux de neurones, l'analyse discriminante, le modèle bayesien naïf, etc. (tout dépend de notre avancement).

Nous utiliserons principalement le logiciel R.

Ce cours est dispensé en M2 Statistique et Informatique (Master SISE -- Data Science)

Ressources en ligne

Ressources

Supports

Ouvrage de référence

Ouvrage de référence pour le cours - Ricco Rakotomalala, "Pratique de la régression logistique", Juin 2011.

Cet ouvrage, totalement gratuit, détaille tous les aspects de la régression logistique qui seront présentés en cours. Certains sujets figurant dans ce fascicule peuvent ne pas être abordés durant les séances (ex. redressement lorsque l’échantillon n’est pas représentatif – tirage rétrospectif ; prise en compte des coûts de mauvais classement ; etc.), mais sont susceptibles de faire l’objet de questions à l’examen. Bref, à lire absolument !

Principaux slides pour le cours

Régression logistique binaire. Présentation de la régression logistique, estimation des coefficients, évaluation statistique des modèles, analyse de la pertinence des variables, interprétation des coefficients, etc.

Régression logistique polytomique. Extension de la régression logistique aux variables cibles qualitatives nominales à plus de 2 modalités, aux variables cibles qualitatives ordinales.

Scoring - Ciblage marketing. Construction et interprétation de la courbe de gain (courbe lift cumulé).

Courbe ROC. Evaluation des modèles à l'aide de la courbe ROC. Le critère AUC (area under curve). Comparaison de modèles.

Techniques de ré-échantillonnage pour l'évaluation des méthodes. Resubstitution, apprentissage-test, validation croisée (cross-validation), bootstrap.

Autres slides concernant le data mining, dont l'apprentissage supervisé. Couvre les principales méthodes du traitement exploratoire des données (classification automatique, analyse factorielle, etc.), de l'économétrie (régression linéaire simple et multiple) et des statistiques (comparaison des populations, tests paramétriques et tests non paramétriques).

Travaux dirigés (il faut avoir un très bon niveau sous R)

TD 1 -- Introduction à la régression logistique. Création d'un modèle sur un échantillon d'apprentissage. Evaluation des performances prédictives sur un échantillon test. Sélection de variables forward et backward. Critères AIC et BIC.

TD 2.a -- Tests de significativité et interprétation des coefficients. Test de Wald, Test du Rapport de Vraisemblance. Variables explicatives quantitatives et qualitatives. Etude du ronflement.

TD 2.b -- Tests de significativité et interprétation des coefficients. Etude des infidélités dans les ménages. Recodage de la variable dépendante.

TD 3 -- Risque realtif, Odds-ratio. Interprétation des coefficients. Lecture des odds-ratio via la régression logistique, cas des variables binaires, qualitatives nominales, qualitatives ordinales, quantitatives.

TD 4.a -- Evaluation statistique des modèles. Test de Hosmer-Lemeshow. Diagramme de fiabilité. Comparaison avec les packages spécialisés.

TD 4.b -- Evaluation des modèles, Courbe ROC et critère AUC. Construction de la courbe ROC en resubstitution. Calcul du critère AUC (area under curve, aire sous la courbe). Passage aux techniques de rééchantillonnage pour une estimation plus fidèle des performances prédictives. Leave-one-out. Comparaison avec le package ROCR.

TD 5 -- Détection et traitement des non-linéarités. Test de Box-Tidwell. Graphique des résidus partiels. Transformation de variables. Discrétisation.

TD 6 -- Sélection de variables. Sélection pas-à-pas (stepwise). Méthodes de ranking - Filtrage des attributs. Méthode wrapper. Mix de ranking et wrapper. Performances comparées.

TD 7 -- Traitements sous données groupées. Covariate pattern. Profils. Etude des profils influents. Résidus de Pearson. Résidus déviance. Distance de Cook.

TD 8 -- Régression logistique multinomiale. Variable cible qualitative nominale à K ( K > 2) modalités. Packages spécialisés (nnet, vgam). Lecture et exploitation des résultats. Comparaison des performances avec les arbres de décision.

Autres cours en relation avec la régression

Corrélation, régression linéaire simple et multiple. Analyse de corrélation, régression léaire simple et multiple. Pratique de la régression. Détection des outliers. Sélection de variables. Identification des ruptures de structures. Traitement des exogènes qualitatives.

Modèle de comptage. Régression de Poisson. Régression où la variable cible représente un comptage. Loi de Poisson. Estimation des paramètres. Maximimisation de la vraisemblance. Qualité de l'ajustement. Surdispersion et Quasi-Poisson.

Régression ZIP. Zero-Inflated Poisson Regression. Modèle de comptage où la valeur 0 de la variable cible est sur-représentée.

Descente de gradient. Application du principe de la descente de gradient à l'apprentissage supervisé. En particulier pour la régression linéaire et la régression logistique.

Tutoriels

Régression logistique sous Python. Pratique de la régression logistique sous Python avec les packages "statsmodels" et "sckit-learn". Inspection et évaluation des modèles. Tests des coefficients. Inférence statistique. Prédiction et mesures des performances prédictives. Construction de la courbe ROC.

Introduction à R - Régression logistique sous R. Présentation succincte de la manipulation des data frame sous R. Importation des fichiers Excel. Mise en oeuvre de la régression logistique avec la procédure glm(). Sélection de variables backward et forward avec stepAIC().

La proc logistic de SAS 9.3. Utilisation de la proc logistic. Importation des données, mise en oeuvre de la procédure, sélection de variables. Comparaisons avec Tanagra.

Régression logistique binaire. Tutoriel animé. Mise en oeuvre de la régression logistique sous Tanagra, lecture des résultats, évaluation des performances.

Collection de tutoriels - Régression Logistique. Liste de tutoriels où il est plus ou moins question de la régression logistique.

Régression logistique - Comparaison de logiciels. Mise en oeuvre et comparaison des (du mode de présentation des) résultats sous Tanagra, R, Weka, Orange, package RWeka sous R.

Régression logistique sur les grandes bases. Traitement d'une base avec 300.000 individus et 121 variables prédictives. Comparaison des logiciels Tanagra, R, Knime, Orange, Weka.

Données manquantes - Régression logistique. Traitement des données manquantes en régression logistique, suppression, imputation. Utilisation des logiciels R, Orange, Knime et RapidMiner.

Diagnostic de la régression logistique. Analyse des résidus, détection des points atypiques, résidus de Pearson, résidus déviance, levier, distance de cook, dfbeta, dfbetas, test de Hosmer - Lemeshow, diagramme de fiabilité.

Scoring avec la régression logistique. Mise en oeuvre de la méthode dans le cadre du scoring marketing.

Classifieurs linéaires. Positionnement de la régression logistique par rapport à d'autres classifieurs linéaires (bayésien naïf, analyse discriminante linéaire, perceptron simple, svm avec noyau linéaire). Illustrations à l'aide d'un jeu de données synthétique.

Traitement des classes déséquilibrées. Techniques pour appréhender les problèmes où une des modalités de la variable cible est rare.

Régression logistique multinomiale. Traitement des variables cibles nominales à plus de 2 modalités. Interprétation des résultats.

Régression logistique ordinale. Traitement des variables cibles ordinales. Interprétation des résultats.


Ricco Rakotomalala – Université Lyon 2