M2 MALIA – Big data management

Logo ICOM Lyon 2

2023-2024

Prérequis

Maîtrise des bases de données relationnelles

Objectif du cours

  • Concepts et pratique des lacs de données
  • Systèmes de gestion de bases de données pour les big data

Plan du cours

  1. Lacs de données
    1. Définitions
    2. Entrepôts et lacs de données
    3. Métadonnées et modèles de métadonnées
    4. Architectures et technologies pour les lacs de données
    5. Discussion, travaux de recherche
  2. SGBD pour les big data
    1. Objectifs
    2. Gestion de graphes avec Neo4J
    3. Interrogation de données JSON avec RumbleDB
    4. Autres SGBD NoSQL

Un complément de cours spécifique sur l’ETL est donné par M. Nicolas Dubois, société BIAL-X (applications sous Pentaho Data Integration).

Organisation pédagogique / Planning

12h de cours-TD (4 séances)

  1. Mardi 09/01, 8h-11h, salle D203
  2. Jeudi 11/01, 8h-11h, salle D203
  3. Jeudi 18/01, 8h-11h, salle D203
  4. Vendredi 19/01, 8h-11h, salle D203

Modalités d’évaluation

Dossier en groupes. Conception et mise en œuvre d’un mini-lac de données textuelles.

Matériel en ligne

Bibliographie / Webographie

  • W.H. Inmon, Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, Technics Publications, 2016
  • T. John, P. Misra, Data Lake for Enterprises: Lambda Architecture for building enterprise data systems, Packt Publishing, 2017
  • A. Gorelik, The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science, O’Reilly, 2019
  • Enterprise Data Lake: Architecture Using Big Data Technologies, B. Satpute Vidéo
  • Inist-CNRS, Cours introductif sur les métadonnées, 2022
  • Z. Dehghani, Data Mesh: Delivering Data-Driven Value at Scale, O’Reilly, 2021
  • Data Mesh, Zhamak Dehghani, 2020 Vidéo
  • J. Robie, M. Brantner, D. Florescu, G. Fourny, T. Westmann, JSONiq: XQuery for JSON, 2011

Autres ressources en ligne