Cours de Régression Logistique

La régression logistique est une technique prédictive. Elle vise à construire un modèle permettant de prédire / expliquer les valeurs prises par une variable cible qualitative (le plus souvent binaire, on parle alors de régression logistique binaire ; si elle possède plus de 2 modalités, on parle de régression logistique polytomique) à partir d’un ensemble de variables explicatives quantitatives ou qualitatives (un codage est nécessaire dans ce cas).

Dans ce cours, les bases théoriques sont certes développées : hypothèse fondamentale de la régression logistique, la maximisation de la vraisemblance, le principe des tests fondés sur le rapport de vraisemblance. Mais nous mettrons surtout l’accent sur les aspects pratiques, relativement basiques dans un premier temps : test de significativité des coefficients, intervalles de confiances, prédiction ; assez avancés - et qui font tout le sel de la régression logistique - dans un second temps : l’interprétation des coefficients sous forme d’odds-ratio, les différentes types de codage des variables explicatives et leur impact sur l’interprétation, les stratégies de sélection de variables, résoudre le problème de la non-linéarité, etc.

Autre versant qui sera mis en avant, nous mettrons l’accent sur la mise en œuvre de la méthode dans les applications réelles. En effet, la régression logistique est une technique très populaire, elle est exploitée dans différentes domaines allant du marketing à l’épidémiologie) (voir le sondage de Stéphane Tufféry sur le site Data Mining et Scoring : Quelle technique de data mining utilisez-vous le plus ? - La régression logistique arrive très largement en tête devant les arbres de décision et l’analyse discriminante). Cela implique l’étude d’outils et des procédures spécifiques, notamment pour l’évaluation des modèles (courbe de gain en scoring, courbe ROC, procédures de ré-échantillonnage lorsque la base ne peut pas être scindée en apprentissage et test, etc.).

Enfin, pour mieux apprécier l’intérêt de l’approche, nous la comparerons – tant du point de vue théorique que pratique - avec d’autres techniques prédictives telles que les arbres de décision, les réseaux de neurones, l'analyse discriminante, le modèle bayesien naïf, etc. (tout dépend de notre avancement).

Nous utiliserons principalement le logiciel R.

Ce cours est dispensé en M2 Statistique.

Ressources en ligne

Ressources

Supports

Ouvrage de référence

Ouvrage de référence pour le cours - Ricco Rakotomalala, "Pratique de la régression logistique", Juin 2011.

Cet ouvrage, totalement gratuit, détaille tous les aspects de la régression logistique qui seront présentés en cours. Certains sujets figurant dans ce fascicule peuvent ne pas être abordés durant les séances (ex. redressement lorsque l’échantillon n’est pas représentatif – tirage rétrospectif ; prise en compte des coûts de mauvais classement ; etc.), mais sont susceptibles de faire l’objet de questions à l’examen. Bref, à lire absolument !

Principaux slides pour le cours

Régression logistique binaire. Présentation de la régression logistique, estimation des coefficients, évaluation statistique des modèles, analyse de la pertinence des variables, interprétation des coefficients, etc.

Régression logistique polytomique. Extension de la régression logistique aux variables cibles qualitatives nominales à plus de 2 modalités, aux variables cibles qualitatives ordinales.

Scoring - Ciblage marketing. Construction et interprétation de la courbe de gain (courbe lift cumulé).

Courbe ROC. Evaluation des modèles à l'aide de la courbe ROC. Le critère AUC (area under curve). Comparaison de modèles.

Techniques de ré-échantillonnage pour l'évaluation des méthodes. Resubstitution, apprentissage-test, validation croisée (cross-validation), bootstrap.

Autres slides concernant le data mining, dont l'apprentissage supervisé. Couvre les principales méthodes du traitement exploratoire des données (classification automatique, analyse factorielle, etc.), de l'économétrie (régression linéaire simple et multiple) et des statistiques (comparaison des populations, tests paramétriques et tests non paramétriques).

Tutoriels

Régression logistique binaire. Tutoriel animé. Mise en oeuvre de la régression logistique sous Tanagra, lecture des résultats, évaluation des performances.

Introduction à R - Régression logistique. Présentation succincte de la manipulation des data frame sous R. Importation des fichiers Excel. Mise en oeuvre de la régression logistique avec la procédure glm(). Sélection de variables avec stepAIC().

La proc logistic de SAS 9.3. Utilisation de la proc logistic. Importation des données, mise en oeuvre de la procédure, sélection de variables. Comparaisons avec Tanagra.

Régression logistique - Comparaison de logiciels. Mise en oeuvre et comparaison des (du mode de présentation des) résultats sous Tanagra, R, Weka, Orange, package RWeka sous R.

Régression logistique sur les grandes bases. Traitement d'une base avec 300.000 individus et 121 variables prédictives. Comparaison des logiciels Tanagra, R, Knime, Orange, Weka.

Données manquantes - Régression logistique. Traitement des données manquantes en régression logistique, suppression, imputation. Utilisation des logiciels R, Orange, Knime et RapidMiner.

Diagnostic de la régression logistique. Analyse des résidus, détection des points atypiques, résidus de Pearson, résidus déviance, levier, distance de cook, dfbeta, dfbetas, test de Hosmer - Lemeshow, diagramme de fiabilité.

Scoring avec la régression logistique. Mise en oeuvre de la méthode dans le cadre du scoring marketing.

Classifieurs linéaires. Positionnement de la régression logistique par rapport à d'autres classifieurs linéaires (bayésien naïf, analyse discriminante linéaire, perceptron simple, svm avec noyau linéaire). Illustrations à l'aide d'un jeu de données synthétique.

Traitement des classes déséquilibrées. Techniques pour appréhender les problèmes où une des modalités de la variable cible est rare.

Régression logistique multinomiale. Traitement des variables cibles nominales à plus de 2 modalités. Interprétation des résultats.

Régression logistique ordinale. Traitement des variables cibles ordinales. Interprétation des résultats.


Ricco Rakotomalala – Université Lyon 2