Ouvrages

Cette page regroupe les fascicules de cours que je rédige à l'attention des étudiants (des supports de cours de datamining sous forme de slides, moins formalisés, étant accessibles par ailleurs). J’aime bien les appeler pompeusement « ouvrages » parce qu’ils sont le fruit d’un gros effort de rédaction, associé à un souci constant de qualité, laquelle dépend beaucoup des lecteurs. Grâce à vos retours, je peux en améliorer constamment le contenu.

J’ai bien été tenté de les faire éditer. Mais trouver une structure qui accepte deux conditions restrictives -- le prix de la version papier doit être décidé d’un commun accord (après une expérience très désagréable, je suis devenu extrêmement chatouilleux sur la question), les PDF doivent être accessibles librement et gratuitement sur un site web -- n’est pas aisé. Il y a quand même d’excellents contre-exemples comme le concept de livres libres de Framabook (prix modique + accès libre au pdf), édités chez In Libro Veritas.

Après réflexion, je me suis dit que les mettre directement sur une page web de mon cru est finalement la solution la plus simple. Elle facilite la mise à jour, ne serait ce que pour la correction des coquilles. L’important est que tout le monde puisse y accéder totalement, gratuitement, sans obligation de s’enregistrer. L’autre engagement fort est la pérennité de ce site. Ces ouvrages ne disparaîtront pas du jour au lendemain suite à une quelconque lubie. Chaque document est accompagné d'une description de son contenu, de la date de la première version, de la date de la version actuelle, et des fichiers regroupant les exemples illustratifs.

Les logiciels utilisés sont principalement SIPINA pour les arbres de décision, TANAGRA et R pour les autres techniques. Sans oublier bien évidemment le tableur qui est à la fois un excellent instrument pédagogique et un formidable outil à vocation professionnelle, les praticiens du data mining, ceux qui manipulent des vraies données au jour le jour, le savent (voir aussi l'excellente page Excel'ense de la Revue Modulad). Un grand nombre de tutoriels permettent d'appréhender les techniques présentées.

Voilà, j'espère que ces documents vous seront réellement utiles.


Titres - Thèmes

Première version

Version actuelle

PDF

Fichiers de données

Méthodes prédictives - Apprentissage supervisé

Pratique de la Régression Logistique - Régression Logistique Binaire et Polytomique

Table des matières : Partie I - Régression Logistique Binaire -- (1) Régression logistique binaire - Principe et estimation. (2) Evaluation de la régression. (3) Tests de significativité des coefficients. Partie II - Pratique de la régression logistique binaire -- (4) Prédiction et intervalle de prédiction. (5) Lecture et interprétation des coefficients. (6) Analyse des interactions. (7) La sélection de variables. (8) Diagnostic de la régression logistique. (9) "Covariate patterne" et statistiques associées. (10) Modifications de la règle d'affectation. (11) Quelques éléments supplémentaires. Partie III - La régression logistique multinomiale -- (12) Variable dépendante nominale - Principe et estimations. (13) Evaluations des classifieurs pour Y à (K > 2) modalités nominales. (14) Tester les coefficients de la régression multinomiale. (15) S'appuyer sur des régressions binaires séparées. Partie IV - La régression logistique polytomique ordinale (TODO)

Mots-clés : apprentissage supervisé, logit, maximisation de la vraisemblance, newton-raphson, pseudo-r2, matrice de confusion, taux d'erreur, sensibilité, spécificité, précision, diagramme de fiabilité, test de hosmer-lemeshow, cours roc, courbe rappel-précision, test du rapport de vraisemblance, test de wald, risque relatif, odds, odds-ratio, odds-ratio partiel, aic, sélection forward, sélection backward, résidus de pearson, résidus déviance, levier, distance de cook, dfbetas, test de box-tidwell, résidus partiels, distance de cook, c et cbar, échantillons non représentatifs, coût de mauvais classement, mco pondérés.

Sept. 2009

Juin 2011

Arbres de décision

Table des matières : (1) Introduction. (2) Un exemple introductif - Construire un arbre de décision. (3) Apprentissage d'un arbre de décision : 3.1. Choix de la variable de segmentation ; 3.2. Traitement des variables continues ; 3.3. Définir la bonne taille de l'arbre ; 3.4. Décision ; 3.5. Fusion des sommets lors de la segmentation. (4) Un exemple détaillé : 4.1. Données et logiciels ; 4.2. Analyse automatique avec CHAID ; 4.3. Evaluation du modèle de prédiction ; 4.4. Interprétation géométrique ; 4.5. Manipulation interactive de l'arbre. (5) Quelques éléments de discussion. (6) Conclusion.

Mots-clés : segmentation, entropie de shannon, indice de gini, sipina, cart, c4.5, chaid.

Publication : Ce document a été publié sous forme de tutoriel dans la revue en ligne MODULAD, avec la référence -- R. Rakotomalala, "Arbres de décision", Revue Modulad, n°33, p.163-187, 2005.

Juin 2005

Juin 2005

Econométrie - Régression

Analyse de corrélation - Etude des dépendances - Variables quantitatives

Table des matières : Partie I - Analyse de corrélation -- (1) Liaison entre deux variables quantitatives. (2) Coefficient de corrélation. (3) Variations autour de la corrélation. Partie II - Corrélations partielles et semi-partielles -- (4) Corrélation partielle paramétrique et non paramétrique. (5) Corrélation semi-partielle.

Mots-clés : covariance, coefficient de corrélation de pearson, coefficient bisériale ponctuelle, corrélation mutuelle, coefficient phi, corrélation de rangs, rho de spearman, tau de kendall, rapport de corrélation.

Mai 2008

Déc. 2008

Econométrie - La régression linéaire simple et multiple

Table des matières : Partie I - Régression linéaire simple -- (1) Modèle de régression linéaire simple. (2) Propriétés des estimateurs. (3) Inférence statistique. (4) Prédiction et intervalle de prédiction. (5) Etude de cas - Consommation de véhicules vs. Poids. (6) Non-linéarité - Modèles dérivés et interprétation des coefficients. (7) Régression sans constante. (8) Comparaison des régressions. Partie II - Régression linéaire multiple -- (9) Régression linéaire multiple. (10) Tests de significativité. (11) Généralisation de l'étude des coefficients. (12) Prédiction ponctuelle et par intervalle. (13) Interprétation des coefficients. (14) Etude de cas : analyse du taux de chômage en France. (15) La régression linéaire avec les logiciels de statistique.

Mots-clés : somme des carrés des résidus, mco, moindres carrés ordinaires, équation d'analyse de variance, coefficient de détermination, R2, coefficient de corrélation linéaire multiple, biais, convergence, théorème de gauss-markov, estimateur blue, droitereg, interprétation des coefficients, test de comparaison des coefficients, R2 corrigé/ajusté, test de significativité d'un bloc de coefficients, test de conformité, test de contraintes linéaires, coefficient brut, coefficient partiel.

Juin 2011

Juin 2011

Pratique de la régression linéaire multiple - Diagnostic et sélection de variables

Table des matières : (1) Etude des résidus. (2) Points aberrants et points influents. (3) Colinéarité et sélection de variables. (4) Régression sur des exogènes qualitatives. (5) Rupture de structure. (6) Détection et traitement de la non linéarité.

Mots-clés : graphique des résidus, qq-plot, test de durbin-watson, test des séquences, test de jarque-bera, levier, résidu standardisé, résidu studentisé, dffits, distance de cook, dfbetas, covratio, f partiel de fisher, régression stagewise, corrélation partielle, sélection forward, sélection backward, stepwise, régressions partielles, régressions croisées, anova à 1 facteur, codage disjonctif complet, cornered effect, centered effect, constrast effect, test de chow, résidus partiels, résidus partiels augmentés.

Sept. 2007

Juil. 2011

Statistique

Etude des dépendances - Variables qualitatives -- Tableau de contingence et mesures d'association

Table des matières : Partie I - Mesures d'association entre variables qualitatives nominales -- (1) Liaison entre 2 variables qualitatives nominales. (2) KHI-2 d'écart à l'indépendance et mesures dérivées. (3) Indicateurs asymétriques - Mesures PRE (Proportional Reduction in Error). Partie II - Cas particuliers -- (4) Tables 2 x 2 - Cas des variables binaires. (5) Risque relatif, odds et odds-ratio. (6) Coefficient de concordance pour les variables nominales. Partie III - Association partielle -- TODO. Partie IV - Traitement des variables ordinales -- (7) Caractériser les associations ordinales - Inadéquation de la corrélation. (8) Les mesues symétriques. (9) d de Sommers - Une mesure asymétrique. (10) Association ordinale pour les variables binaires. (11) Association partielle pour les variables ordinales (TODO).

Mots-clés : test d'indépendance du khi-2, décomposition du khi-2, lambda de goodman et kruskal, tau de goodman et kruskal, u de theil, coefficient phi, correction de yates, coefficient q de yule, risque relatif, odds, odds-ratio, kappa de cohen, kappa de fleiss, comparaisons par paires, lambda de goodman et kruskal, tau-b de kendall, tau-c de kendall, de de sommers, mantel-haenszel.

Sept. 2007

Mars 2011

Comparaison de populations - Tests non paramétriques

Table des matières : Partie I - Tests pour échantillons indépendants -- (1) Tests génériques de comparaison de K = 2 échantillons. (2) Tests de rang dans un modèle de localisation pour K = 2 échantillons. (3) Tests de rang dans un modèle de localisation pour K >= 2 populations. (4) Tests de rang dans un modèle d'échelle. (5) Retour sur les statistiques de rang linéaires. Partie II - Tests pour échantillons appariés -- (6) Tests pour K = 2 échantillons liés. (7) Tests pour K >= 2 échantillons liés. (8) Tests pour les variables binaires.

Mots-clés : test de kologorov-smirnov, test de kuiper, test de wilcoxon - mann - whitney, test de van der waerden, test de rang robuste de flinger-policello, test de la médiane, test de kruskal-wallis, test de jonckheere-terpstra, test de page, test de mood, test de klotz, test robuste de moses, test de savage, test de siegel-tukey, test de ansari-bradley, test des signes, test des rangs signés de wilcoxon, anova de friedman, test de mc nemar, test de stuart-maxwell, test q de cochran.

Aout 2008

Aout 2008

Comparaison de populations - Tests paramétriques

Table des matières : Partie I - Tests pour échantillons indépendants -- (1) Comparaison de moyennes. (2) Comparaison de variances. (3) Comparaison de proportions. Partie II - Autres tests -- (4) Tests pour échantillons appariés. Partie III - Tests multivariés -- (5) Notations et bases inférentielles. (6) T2 de Hotelling - Comparaison de K = 2 populations. (7) Comparaison de K > 2 populations.

Mots-clés : t de student, aspin-welch, anova à 1 facteur, test de fisher, test de bartlett, test de cochran, test de hartley, test de levene, test de brown-forsythe, test de o'brien, blocs aléatoires complets, t2 de hotelling, lambda de wilks, manova, test de bartlett de comparaison de matrice de variance covariance.

Juil. 2008

Mai 2010

Test de normalité - Techniques empiriques et tests statistiques

Table des matières : (1) Techniques empiriques et méthodes graphiques. (2) Tests statistiques. (3) test de symétrie. (4) Transformation de box-cox

Mots-clés : qq-plot, droite de henry, test de shapiro-wilk, test de lilliefors, test de anderson-darling, test de d'agostino, test de jarque-bera, test de wilcoxon, test de van der waerden, box-cox normality plot.

Août 2007

Juin 2008

Probabilité et statistique - Note de cours

Table des matières : Partie I - Introduction aux méthodes de calcul des probabilités -- (1) Eléments d'analyse combinatoire. (2) Définition de la probabilité. (3) Axiome du calcul des probabilités. (4) Les schémas de tirages probabilistes. (5) Probabilité de Bayes. (6) Les variables aléatoires. (7) Caractéristiques d'une variable aléatoire. Partie II - Lois de probabilité d'usage courant -- (8) Les lois discrètes. (9) Les lois continues. (10) Test d'adéquation à une loi.

Mots-clés : probabilité, axiomes de kolmogorov, tirage exhaustif, tirage de bernouilli, théorème de bayes, loi de probabilité, fonction de densité, fonction de répartition.

Août 2007

Aout 2007


Ricco Rakotomalala – Université Lyon 2