Supports de cours de Text Mining - Web Mining - Analyse des réseaux sociaux

Cette page recense les supports utilisés pour mes enseignements de Text Mining (fouille de textes), Web Mining (fouille du web) et Analyse des Réseaux Sociaux en Master 2 Statistique et Informatique pour la Science des donnéEs (Master SISE), formation en data science au sein du Département Informatique et Statistique (DIS) de l'Université Lyon 2.

Mes interventions s'inscrivent dans le cadre du traitement statistique des données et de la valorisation des big data. On parle également de data mining et de big data analytics dans la littérature. Ce sont des domaines où la synergie entre les méthodes statistiques et l'informatique, piliers essentiels de la data science, est primordiale.

Le text mining et le web mining en est une illustration parfaite : il faut d'une part maîtriser les outils informatiques qui permettent d'appréhender les données sous des formats divers (on parle de données non-structurées) ; et, d'autre part, bien connaître les techniques de machine learning qui permettent de mettre en évidence des régularités sous-jacentes aux corpus de documents.

A ces supports de cours sont associés des tutoriels qui permettent de mettre en application directement les notions apprises. Je m’appuie principalement sur les packages spécialisés des logiciels R et Python.

Ressources en ligne

Matériel pédagogique - Slides, supports de cours, tutoriels...

Supports

Slides pour le text mining et web mining

Introduction au text mining - Définition de la fouille de textes. Positionnement par rapport à la démarche data mining. Représentation des corpus (collection de textes) à l'aide de sac de mots (bag of words).

La matrice documents termes - Représentation en cas de mots (bag of words). Extraction des termes, réduction de la dimensionnalité, la question de la pondération, mesures de similaités et distances adaptées au domaine.

La catégorisation de textes (document classification) - Analyse prédictive à partir d'une collection de documents étiquetées. Mesures spécifiques d'évaluation des performances (F-Mesure, F-Score). Techniques de réduction de dimensionalité.

Topic model - Identification des thèmes sous-jacents aux documents d'un corpus. Réduction de la dimensionnalité (bis). LIS : latent semantic indexing ; LDA : latent dirichlet allocation.

Fouille d'opinions et analyse des sentiments - Traitement des données provenant des médias sociaux. Opinion mining, sentiment analysis.

Détection des communautés - Mise en évidence des groupes d'individus dans les réseaux sociaux.

Filtrage collaboratif et recommandations - Construction de systèmes de recommandations basé sur les opinions, les évaluations, les comportements,... Approches centrées utilisateur, approches centrées produit (item).

Tutoriels sous R et Python

Catégorisation de SMS sous Python - Catégorisation de textes. Construction de la matrice documents-termes. Réduction de la dimensionnalité. Package scikit-learn. Identification des spams dans les SMS.

Analyse des tweets sous R - Accès aux messages sur Twitter. Traitement des messages.

Détection des communautés sous Python - Détection des communautés dans les réseaux sociaux. Graphe social.

Les expression régulières sous R - Manipulation des documents textuels. Opérations de recherche, nettoyage, découpage, ...

Text Mining avec Knime et RapidMiner - Une petite infidélité à R et Python. La démarche de catégorisation automatique de documents à l'aide des logiciels Knime et RapidMiner.

Google Analytics avec R. Importation et analyse des données provenant de Google Analytics via le package RGoogleAnalytics.

LinkedIn avec Python. Accès aux données de LinkedIn via l'API dédié. Utilisation du package python-linkedin pour Python.


Ricco Rakotomalala – Université Lyon 2