M2 Data Mining – Big data management

Logo ICOM Lyon 2Vignette-info-stat

2019-2020

Prérequis

Maîtrise des bases de données relationnelles.

Objectif du cours

Aborder les concepts et la pratique des entrepôts et des lacs de données :

  • Modélisation multidimensionnelle
  • Intégration de données (ETL)
  • Analyse en ligne (OLAP)
  • Choix d’un entrepôt ou d’un lac de données
  • Gestion de métadonnées
  • Mise en œuvre d’un lac de données

Plan du cours

  1. Entrepôts de données
    1. Introduction : le processus décisionnel
    2. Modélisation conceptuelle des entrepôts
      • Métaphore du cube de données
      • Schémas multidimensionnels
    3. Modélisation logique des entrepôts
      • Approche ROLAP
      • Approche MOLAP
      • Approche HOLAP
      • Approche HTAP
    4. Mise en œuvre d’un entrepôt de données
      • Approche top-down
      • Approche bottom-up
      • Processus ETL
    5. Analyse en ligne (OLAP)
      • Algèbre OLAP
      • Langages SQL et MDX
    6. Entrepôts et big data
      • Modélisation ensembliste
      • SGBD orientés colonnes
  2. Lacs de de données
    1. Définitions
    2. Entrepôts et lacs de données
      • Data lake vs. Data warehouse
      • Synergie entrepôts et lacs de données
    3. Métadonnées et systèmes de métadonnées
      • Typologies de métadonnées
      • Systèmes de métadonnées
    4. Architecture et technologies pour les lacs
      • Comparaison des architectures de lacs
      • Technologies pour les lacs de données
    5. Discussion, travaux de recherche
      • Avantages et inconvénients des lacs de données
      • Problèmes de recherche actuels
      • Exemple de projet de recherche

Un complément de cours spécifique sur l’ETL sera donné par M. Nicolas Dubois, société BIAL-X (applications sous Pentaho Data Integration).

Organisation pédagogique / Planning

12h de cours-TD (4 séances)

  1. Jeudi 9/01, 9h-12h, salle i203
  2. Vendredi 10/01, 9h-12h, salle i203
  3. Jeudi 16/01, 9h-12h, salle i203
  4. Jeudi 16/01, 14h-17h, salle i203

Modalités d’évaluation

Dossier en groupes commun avec le cours de Text Mining de J. Velcin. Conception et mise en œuvre d’un lac de données textuelles.

Matériel en ligne

Bibliographie / Webographie

  • W.H. Inmon, Building the Data Warehouse (Fourth Edition), Wiley, 2004
  • R. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), Wiley, 2002
  • R. Kimball and J. Caserta, The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming and Delivering Data, Wiley, 2004
  • E. Thomsen, OLAP Solutions: Building Multidimensional Information Systems (Second Edition), Wiley, 2002
  • K. Rudin, C. Buss, and W.H. Inmon, Data Warehouse Performance, Wiley, 1998
  • W.H. Inmon, Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, Technics Publications, 2016
  • T. John, P. Misra, Data Lake for Enterprises: Lambda Architecture for building enterprise data systems, Packt Publishing, 2017
  • A. Gorelik, The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science, O’Reilly, 2019
  • Modélisation multidimensionnelle, Elsa Nègre, Université Paris-Dauphine
  • Systèmes d’information décisionnels, E. Grislin Le Strugeon, Université de Valenciennes et Didier Donsez, Université Grenoble 1
  • Entrepôts et fouille de données, Bernard Espinasse, Polytech Marseille
  • Data warehousing and OLAP, Hector Garcia-Molina, Stanford
  • Data warehouse and OLAP, Patrick Marcel, Université de Tours
  • Learn to Write Custom MDX Query First Time, Mubin M. Shaikh
  • Enterprise Data Lake: Architecture Using Big Data Technologies, B. Satpute Vidéo

Autres ressources en ligne