Contenu et objectifs du cours DATA MINING

Data Mining

Le DATA MINING, connu en France sous le terme d'ECD (Extraction de Connaissances à partir de Données), est un domaine très en vogue, pour ne pas dire à la mode. A la lecture des différents documents essayant tant bien que mal de définir exactement ce qu'est l'ECD, on peut se dire que, finalement, cela fait plus de 30 ans qu'on le pratique avec ce qu'on appelle l'analyse de données et les statistiques exploratoires. Et on n'aurait pas complètement tort.

En réalité, ce n'est pas aussi simple, l'ECD emmène plusieurs points nouveaux qui sont loin d'être négligeables :

(1) des techniques d'analyse qui ne sont pas dans la culture des statisticiens, en provenance de l'apprentissage automatique (Intelligence artificielle) et des bases de données ;
(2) l'extraction de connaissances est intégrée dans le schéma organisationnel de l'entreprise. Ainsi, les données ne sont plus issues d'enquêtes ou de sondages mais proviennent d'entrepôts construits sciemment pour une exploitation aux fins d'analyse, le DATAWAREHOUSE. D'une part, une réorganisation du flux de données au sein de l'entreprise devient nécessaire (l'enchaînement des bases de production, le Datawarehouse et les Datamarts); d'autre part, la capacité des méthodes statistiques à traiter de gros volumes devient un élément clé ;
(3) enfin, dernier élément important, le traitement des données sort de plus en plus des sentiers battus en traitant, non plus seulement des fichiers plats "individus x variables", mais également des données sous forme non structurée, le texte, depuis un bon moment déjà, mais aussi les images et la vidéo. Cette orientation attribue une place primordiale à la préparation des données.

Public visé

Ce cours s'adresse à deux types de public :

(1) les économistes, l'objectif est de montrer quels sont les principaux enjeux du DATA MINING dans l'entreprise, à quels types de problèmes répondent les techniques statistiques utilisées, comment lire entre les lignes d'un rapport de DATA MINING (#12h);
(2) les statisticiens, l'accent est plus mis sur les techniques, leur positionnement, leurs caractéristiques et leur mise en oeuvre sur un problème réel. L'objectif est de permettre à l'étudiant d'identifier la technique adéquate face à un problème à résoudre, de traiter les données à l'aide d'un logiciel spécialisé, de produire des résultats commentés, et d'évaluer la portée réelle de ces résultats, notamment par la validation (#21h).

Ressources

Les supports relatifs à ce cours sont disponibles en ligne. On y trouve, entre autres, les slides que j'utilise pour les présentations magistrales. A chaque thème est associé un fichier de données exemple. Le traitement des données à l'aide du logiciel TANAGRA est disponible sous la forme de didacticiel. A ce sujet, il est conseillé d'aller voir d'un peu plus près les tutoriels qui sont sur le site. Ils couvrent une large partie des études types à mener lors du traitement exploratoire des données, que ce soit dans le cadre du data mining, dans le cadre de l'analyse de données, ou de la statistique.

Autre ressource qui peut être intéréssante, les liens proposées dans la page statistique peuvent servir dans le cadre du DATA MINING (la page stat).

Ressources - DATA MINING

Ressources Accès
Mes supports de cours DATA MINING. Les slides, les didiacticiels correspondant à chaque thème, les fichiers de données utilisés.
Portails et ressources en ligne
Un portail de portails, un méta-portail en somme, le site vaut avant tout par l'effort d'organisation réalisé. La culture ambiante est très machine & statistical learning.
"Le" portail du DATA MINING, historiquement et surtout par sa richesse, les pointeurs mènent à tout (articles, données tests, logiciels, etc.). Sa principale faiblesse est sa trop grand richesse, on a du mal à s'y retrouver au bout d'un moment.
Un autre portail en français, de l'auteur d'un ouvrage qui fait référence sur le data mining en entreprise.
Un serveur pour les données, il y en a beaucoup d'autres par ailleurs.
Autres supports de cours en ligne
Ce que l'on dit du data mining (la fouille de données) sur l'encyclopédie en ligne WIKIPEDIA.
Un cours en ligne par Gilleron et Tommasi (Université de Lille 3). Sur le DATA MINING en général et tout particulièrement sur l'apprentissage supervisé. DATA MINING Apprentissage supervisé
Cours de Jia Li (Pennsylvania State University). DATA MINING
Logiciels libres
TANAGRA : une grande partie de la panoplie des méthodes de DATA MINING intégrées dans une seule structure. Le mode d'utilisation du logiciel est au standard logiciels du domaine, avec notamment la définition des opérations à réaliser sur les données à l'aide d'une représentation visuelle. A voir absolument, la section didacticiels de ce site.
SIPINA : du même auteur que TANAGRA, il se distingue surtout par sa large palette de méthodes d'induction par arbres de décision, avec la possibilité d'intéragir directement avec les modèles construits. Distribué depuis une dizaine d'années, ce logiciel est très connu dans le monde de la recherche, il commence à dater un peu quand même.
R-project : Un logiciel gratuit que l'on associe souvent aux statisticiens mais qui en réalité convient très bien pour la fouille de données. La bibliothèque des fonctions est impressionnante et s'enrichit chaque jour grâce au système des packages. Seul bémol, il fonctionne à l'aide d'un interpréteur de commandes. Il faut un peu de pratique pour en tirer véritablement parti. Le lien indiqué nous dirige vers mon site de cours de programmation sous R, vous y trouverez tous les liens idoines pour l'apprentissage du logiciel R.
ORANGE : un logiciel gratuit qui propose un grand nombre de méthodes de data mining. L'aspect "user-friendly" du logiciel, sa facilité d'utilisation et ses fonctionnalités graphiques sont remarquables.
WEKA : un logiciel très riche programmé en JAVA, donc potentiellement exécutable sur tous les systèmes d'exploitation. Le contenu scientifique est très solide, il fait référence chez les chercheurs dans le domaine de l'apprentissage automatique. Quelques soucis de performances dès que le fichier atteint une certaine taille. Logiciel gratuit, plutôt dédié à la recherche, les auteurs ont rédigé un ouvrage que l'on peut voir comme une doc de l'utilisateur. L'ouvrage n'est pas gratuit en revanche, c'est dommage.
Comparatif des logiciels ORANGE, TANAGRA et WEKA. Quelques éléments de réflexion sur l'opportunité d'utiliser ces logiciels pour les enseignements à l'Université, et par extension, qu'en est-il dans le cadre d'une utilisation industrielle ?
Quelques didacticiels décrivant la mise en œuvre de ces logiciels sur différents sujets ayant trait à la fouille de données permettent de mieux situer leurs mérites respectifs (comparaison des interfaces, des paramétrages, des sorties des logiciels, etc.)
Logiciels commerciaux
SPAD de DECISIA: "le" logiciel français du DATA MINING, de par son historique et la richesse des méthodes qu'elle comporte.
CLEMENTINE de SPSS : très joli produit, très diffusé.
STATISTICA Data Miner : un autre pro des stats qui se lance dans le DATA MINING à travers une représentation graphique des traitements et de leur enchaînement. Les méthodes sont très complètes avec une documentation intéressante.
INSIGHTFUL MINER : un logiciel de data mining basé sur S, le clone payant de R (ou plutôt l'inverse pour être tout à fait impartial). Excellentes fonctionnalités et très grande richesse de la bibliothèque des méthodes.

Ricco Rakotomalala – Université Lyon 2