Cours DATA MINING
Support de cours
Portail Data Mining
Logiciels
Tanagra
Sipina - Arbres de décision
Programmation R

Contenu et objectifs du cours DATA MINING

Data Mining

Le DATA MINING , raccourci de "Extraction de Connaissances à partir de Données" ("Knowledge Discovery in Databases" en anglais - KDD), est un domaine très en vogue. A la lecture des différents documents essayant tant bien que mal de définir exactement ce qu'est le data mining, on peut se dire que, finalement, cela fait plus de 30 ans qu'on le pratique avec ce qu'on appelle l'analyse de données et les statistiques exploratoires. Et on n'aurait pas complètement tort.

En réalité, ce n'est pas aussi simple, le data mining emmène plusieurs points nouveaux qui sont loin d'être négligeables :

(1) des techniques d'analyse qui ne sont pas dans la culture des statisticiens, en provenance de l'apprentissage automatique (Intelligence artificielle), de la reconnaissance de formes (pattern recognition) et des bases de données ;
(2) l'extraction de connaissances est intégrée dans le schéma organisationnel de l'entreprise. Ainsi, les données ne sont plus issues d'enquêtes ou de sondages mais proviennent d'entrepôts construits sciemment pour une exploitation aux fins d'analyse, le DATAWAREHOUSE (entrepôts de données). D'une part, une réorganisation du flux de données au sein de l'entreprise devient nécessaire (l'enchaînement des bases de production, le Datawarehouse et les Datamarts); d'autre part, la capacité des méthodes statistiques à traiter de gros volumes devient un élément clé ;
(3) enfin, dernier élément important, le traitement des données sort de plus en plus des sentiers battus en traitant, non plus seulement des fichiers plats "individus x variables", mais également des données sous forme non structurée, le texte, depuis un bon moment déjà, mais aussi les images et la vidéo. On parle de fouille de données complexes. Cette orientation attribue une place primordiale à la préparation des données.

Data Science - Data Analytics

Ces dernières années, le domaine a connu une forte accélération avec l’apparition du phénomène big data. Les caractéristiques des « data » ont singulièrement évolué de par l’évolution technologique (internet est un média incontournable, les capacités de stockages évoluent fortement, etc.), de par nos pratiques de communication (les réseaux sociaux, les forums, etc.), de par la multiplication des sources et des formats des informations transmises (textes, images, vidéo avec les plates-formes d’échange, etc.) amplifié par la politique open data qui représente une tendance lourde pour les années à venir. On désigne ces nouvelles caractéristiques des données par les termes : volume, variété, vélocité. De fait, de nouveaux mots-clés apparaissent pour marquer l’évolution de la spécialité où l’objectif reste toujours la valorisation des données par l’extraction de connaissances : big analytics, data analytics, business analytics, etc. On peut les rassembler sous le terme générique DATA SCIENCE, avec un nouveau métier : data scientist. Le cours bien évidemment évolue pour mieux saisir ces nouvelles opportunités, afin de proposer de nouvelles compétences à nos étudiants (des futurs data scientists donc) et mieux les préparer au marché du travail.

Public visé

Ce cours s'adresse aux étudiants de Master 2, plutôt d'obédience statistique et informatique. L'accent est mis sur les techniques, leurs positionnements, leurs caractéristiques et leurs mises en oeuvre dans des études réelles. L'objectif est de permettre à l'étudiant d'identifier la technique adéquate face à un problème à résoudre, de traiter les données à l'aide d'un logiciel spécialisé, de produire des résultats commentés, et d'évaluer la portée réelle de ces résultats, notamment par la validation.

Ressources

Les supports relatifs à ce cours sont disponibles en ligne. On y trouve, entre autres, les slides que j'utilise pour les présentations magistrales. A chaque thème est associé un fichier de données exemple. Le traitement des données à l'aide du logiciel TANAGRA est disponible sous la forme de didacticiel. A ce sujet, il est conseillé d'aller voir d'un peu plus près les tutoriels qui sont sur le site. Ils couvrent une large partie des études types à mener lors du traitement exploratoire des données, que ce soit dans le cadre du data mining, dans le cadre de l'analyse de données, ou de la statistique.

Ressources - DATA MINING

Ressources Accès
Mes supports de cours DATA MINING. Les slides, les didiacticiels correspondant à chaque thème, les fichiers de données utilisés.
Un portail web consacré au DATA MINING. Il rassemble de très nombreux liens sur des sites de cours, d’ouvrages libres, de portails, de serveurs de données... Bref, tout ce que j’ai lu et qui me parait suffisamment intéressant pour que je le partage avec vous.
Autres ressources en ligne
"Le" portail du DATA MINING, historiquement et surtout par sa richesse, les pointeurs mènent à tout (articles, données tests, logiciels, etc.). Sa principale faiblesse est sa trop grand richesse, on a du mal à s'y retrouver au bout d'un moment.
Un autre portail en français, de l'auteur d'un ouvrage qui fait référence sur le data mining en entreprise.
Logiciels libres et/ou gratuits
TANAGRA : une grande partie de la panoplie des méthodes de DATA MINING intégrées dans une seule structure. Le mode d'utilisation du logiciel est au standard logiciels du domaine, avec notamment la définition des opérations à réaliser sur les données à l'aide d'une représentation visuelle. A voir absolument, la section didacticiels de ce site.
SIPINA : du même auteur que TANAGRA, il se distingue surtout par sa large palette de méthodes d'induction par arbres de décision, avec la possibilité d'intéragir directement avec les modèles construits. Distribué depuis une dizaine d'années, ce logiciel est très connu dans le monde de la recherche, il commence à dater un peu quand même.
R-project : Un logiciel gratuit que l'on associe souvent aux statisticiens mais qui en réalité convient très bien pour la fouille de données. La bibliothèque des fonctions est impressionnante et s'enrichit chaque jour grâce au système des packages. Seul bémol, il fonctionne à l'aide d'un interpréteur de commandes. Il faut un peu de pratique pour en tirer véritablement parti. Le lien indiqué nous dirige vers mon site de cours de programmation sous R, vous y trouverez tous les liens idoines pour l'apprentissage du logiciel R.
Comparatif des logiciels KNIME, ORANGE, R, RAPIDMINER, TANAGRA et WEKA. Quelques éléments de réflexion sur l'opportunité d'utiliser ces logiciels pour les enseignements à l'Université, et par extension, qu'en est-il dans le cadre d'une utilisation industrielle ?
Quelques didacticiels décrivant la mise en œuvre de ces logiciels sur différents sujets ayant trait à la fouille de données permettent de mieux situer leurs mérites respectifs (comparaison des interfaces, des paramétrages, des sorties des logiciels, etc.)
Logiciels commerciaux
SPAD de COHERIS: "le" logiciel français du DATA MINING, de par son historique et la richesse des méthodes qu'elle comporte.
IBM SPSS Modeler : très joli produit, très diffusé.
STATISTICA Data Miner : un autre pro des stats qui se lance dans le DATA MINING à travers une représentation graphique des traitements et de leur enchaînement. Les méthodes sont très complètes avec une documentation particulièrement riche (cf. Electronic Statistics Textbook) .

Ricco Rakotomalala – Université Lyon 2