2023-2024
Prérequis
Maîtrise des bases de données relationnelles
Objectif du cours
- Concepts et pratique des lacs de données
- Systèmes de gestion de bases de données pour les big data
Plan du cours
- Lacs de données
- Définitions
- Entrepôts et lacs de données
- Métadonnées et modèles de métadonnées
- Architectures et technologies pour les lacs de données
- Discussion, travaux de recherche
- SGBD pour les big data
- Objectifs
- Gestion de graphes avec Neo4J
- Interrogation de données JSON avec RumbleDB
- Autres SGBD NoSQL
Un complément de cours spécifique sur l’ETL est donné par M. Nicolas Dubois, société BIAL-X (applications sous Pentaho Data Integration).
Organisation pédagogique / Planning
12h de cours-TD (4 séances)
- Mardi 09/01, 8h-11h, salle D203
- Jeudi 11/01, 8h-11h, salle D203
- Jeudi 18/01, 8h-11h, salle D203
- Vendredi 19/01, 8h-11h, salle D203
Modalités d’évaluation
Dossier en groupes. Conception et mise en œuvre d’un mini-lac de données textuelles.
Matériel en ligne
- Support de cours (4989 Ko)
- TD métadonnées et SGBD big data corrigé (101 Ko)
- Projet Lac de données (70 Ko)
Bibliographie / Webographie
- W.H. Inmon, Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, Technics Publications, 2016
- T. John, P. Misra, Data Lake for Enterprises: Lambda Architecture for building enterprise data systems, Packt Publishing, 2017
- A. Gorelik, The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science, O’Reilly, 2019
- Enterprise Data Lake: Architecture Using Big Data Technologies, B. Satpute
- Inist-CNRS, Cours introductif sur les métadonnées, 2022
- Z. Dehghani, Data Mesh: Delivering Data-Driven Value at Scale, O’Reilly, 2021
- Data Mesh, Zhamak Dehghani, 2020
- J. Robie, M. Brantner, D. Florescu, G. Fourny, T. Westmann, JSONiq: XQuery for JSON, 2011
Autres ressources en ligne
- Neo4j, SGBD graphe
- Console Neo4J
- Tuto Neo4J
- Tuto JSON
- RumbleDB, SGBD documents
- JSONiq, langage de requêtes pour JSON
- Fonctions JSONiq
- JSONiq use cases
- Tuto JSONiq
- MongoDB, SGBD documents
- Elasticsearch, moteur de recherche et d’analyse
- Solr, plateforme de recherche
- Collections de données ouvertes :
- Bases de données de l’INSEE
- Fiches de la BNF
- Recensement des villes
- Open data Enseignement supérieur et recherche
- SNCF open data
- Portail des données ouvertes de l’Union européenne
- United Nations data
- U.S. Government’s open data
- UK Government’s open data
- Kaggle Datasets
- Wikipedia’s List of text corpora