M2 DM – Big data management

Logo ICOM Lyon 2Vignette-info-stat

2020-2021

Prérequis

Maîtrise des bases de données relationnelles.

Objectif du cours

Aborder les concepts et la pratique des entrepôts et des lacs de données :

  • Modélisation multidimensionnelle
  • Intégration de données (ETL)
  • Analyse en ligne (OLAP)
  • Choix d’un entrepôt ou d’un lac de données
  • Gestion de métadonnées
  • Mise en œuvre d’un lac de données

Plan du cours

  1. Entrepôts de données
    1. Introduction : le processus décisionnel
    2. Modélisation conceptuelle des entrepôts
      • Métaphore du cube de données
      • Schémas multidimensionnels
    3. Modélisation logique des entrepôts
      • Approche ROLAP
      • Approche MOLAP
      • Approche HOLAP
      • Approche HTAP
    4. Mise en œuvre d’un entrepôt de données
      • Approche top-down
      • Approche bottom-up
      • Processus ETL
    5. Analyse en ligne (OLAP)
      • Algèbre OLAP
      • Langages SQL et MDX
    6. Entrepôts et big data
      • Modélisation ensembliste
      • SGBD orientés colonnes
  2. Lacs de de données
    1. Définitions
    2. Entrepôts et lacs de données
      • Data lake vs. Data warehouse
      • Synergie entrepôts et lacs de données
    3. Métadonnées et modèles de métadonnées
      • Typologies de métadonnées
      • Modèles de métadonnées
    4. Architecture et technologies pour les lacs de données
      • Architectures en zones
      • Architectures fonctionnalité x maturité
      • Technologies pour les lacs de données
    5. Discussion, travaux de recherche
      • Avantages et inconvénients des lacs de données
      • Problèmes de recherche actuels
      • Exemples de projet de recherche

Un complément de cours spécifique sur l’ETL sera donné par M. Nicolas Dubois, société BIAL-X (applications sous Pentaho Data Integration).

Organisation pédagogique / Planning

12h de cours-TD (5 séances)

  1. Mardi 12/01, 14h-16h, en visio (Moodle/BBB)
  2. Jeudi 14/01, 14h-17h, en visio (Moodle/BBB)
  3. Lundi 18/01, 14h-16h, en visio (Moodle/BBB)
  4. Jeudi 21/01, 14h-17h, en visio (Moodle/BBB)
  5. Jeudi 28/01, 14h-16h, en visio (Moodle/BBB)

Modalités d’évaluation

Dossier en groupes. Conception et mise en œuvre d’un lac de données textuelles.

Matériel en ligne

Bibliographie / Webographie

  • W.H. Inmon, Building the Data Warehouse (Fourth Edition), Wiley, 2004
  • R. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), Wiley, 2002
  • R. Kimball and J. Caserta, The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming and Delivering Data, Wiley, 2004
  • E. Thomsen, OLAP Solutions: Building Multidimensional Information Systems (Second Edition), Wiley, 2002
  • K. Rudin, C. Buss, and W.H. Inmon, Data Warehouse Performance, Wiley, 1998
  • W.H. Inmon, Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, Technics Publications, 2016
  • T. John, P. Misra, Data Lake for Enterprises: Lambda Architecture for building enterprise data systems, Packt Publishing, 2017
  • A. Gorelik, The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science, O’Reilly, 2019
  • Modélisation multidimensionnelle, Elsa Nègre, Université Paris-Dauphine
  • Systèmes d’information décisionnels, E. Grislin Le Strugeon, Université de Valenciennes et Didier Donsez, Université Grenoble 1
  • Entrepôts et fouille de données, Bernard Espinasse, Polytech Marseille
  • Data warehousing and OLAP, Hector Garcia-Molina, Stanford
  • Data warehouse and OLAP, Patrick Marcel, Université de Tours
  • Learn to Write Custom MDX Query First Time, Mubin M. Shaikh
  • Enterprise Data Lake: Architecture Using Big Data Technologies, B. Satpute Vidéo

Autres ressources en ligne