Cécile Favre, Maîtresse de conférences en Informatique (cecile.favre@univ-lyon2.fr)


Thèse

Date de soutenance : 12 décembre 2007
Titre : Evolution de schémas dans les entrepôts de données : mise à jour de hiérarchies de dimension pour la personnalisation des analyses
Documents associés : Mémoire de thèse, Présentation
Caractéristique : Thèse CIFRE en collaboration avec LCL-Le Crédit Lyonnais
Encadrement : Fadila Bentayeb et Omar Boussaid

Composition du jury :

  • Mme Rokia Missaoui (Professeur, Université du Québec en Outaouais) : Rapportrice
  • M. Gilles Zurfluh (Professeur, Université Toulouse 1) : Rapporteur
  • Mme Corine Cauvet (Professeur, Université Aix-Marseille 3) : Examinatrice, Présidente du Jury
  • M. Djamal Benslimane (Professeur, Université Lyon 1) : Examinateur
  • M. Abdelkader Djamel Zighed (Professeur, Université Lyon 2) : Examinateur
  • Mme Fadila Bentayeb (Maître de Conférences, Université Lyon 2) : Co-directrice de thèse
  • M. Omar Boussaid (Maître de Conférences-HDR, Université Lyon 2) : Directeur de thèse
  • M. Michel Rougié (LCL Le Crédit Lyonnais - Direction Rhône Alpes Auvergne) : Invité
En hommage au Professeur Nicolas Nicoloyannis

Evolution de schémas dans les entrepôts de données :
mise à jour de hiérarchies de dimension
pour la personnalisation des analyses

Cette thèse a été réalisée dans le cadre d'une Convention Industrielle de Formation par la REcherche (CIFRE) en collaboration avec l'établissement bancaire LCL-Le Crédit Lyonnais. Elle s'inscrit dans le domaine des entrepôts de données. Ces derniers constituent un élément incontournable de l'architecture décisionnelle, sur lesquels reposent alors des outils permettant l'analyse en ligne des données (OLAP : On Line Analytical Processing) pour l'aide à la décision. Le schéma de l'entrepôt, qui détermine les possibilités d'analyse, est conçu en fonction des sources de données disponibles d'une part et des besoins d'analyse d'autre part.

Or, il est difficile d'être exhaustif dans le recensement des besoins d'analyse des utilisateurs au moment de la conception du schéma de l'entrepôt. En outre, de nouveaux besoins individuels peuvent émerger. L'émergence de nouveaux besoins d'analyse individuels fait alors apparaître la nécessité d'une personnalisation des analyses, qui placerait l'utilisateur au c\oe ur du processus décisionnel.

Dans cette thèse, nous proposons une solution à la personnalisation des analyses dans les entrepôts de données. Cette solution se base sur une évolution du schéma de l'entrepôt guidée par les utilisateurs. Il s'agit en effet de recueillir les connaissances de l'utilisateur et de les intégrer dans l'entrepôt de données afin de créer de nouveaux axes d'analyse. Afin de développer cette solution, nous avons proposé quatre contributions majeures :

1- Notre première contribution consiste en la définition d'un modèle formel d'entrepôt de données évolutif, basé sur des règles <>, que nous appelons règles d'agrégation. Ce modèle est composé d'une partie <> et d'une partie <<évolutive>>. La partie fixe est constituée de la table des faits et des tables de dimension qui lui sont directement reliées. La partie évolutive est composée d'un ensemble de hiérarchies de dimension qui sont mises à jour. Pour assurer la généricité de notre approche, nous proposons également un méta-modèle qui permet de décrire tout entrepôt de données évolutif.

2- Notre modèle d'entrepôt évolutif est soutenu par une architecture qui permet de modéliser le processus de personnalisation. Cette architecture comprend quatre modules :
* un module d'acquisition des connaissances utilisateurs sous forme de règles d'agrégation ;
* un module d'intégration des règles d'agrégation dans l'entrepôt de données ;
* un module d'évolution du schéma ;
* un module d'analyse permettant à l'utilisateur de réaliser des analyses sur le nouveau schéma.

3- Pour mettre en oeuvre cette architecture globale, nous proposons un modèle d'exécution avec l'approche relationnelle, qui vise à gérer l'ensemble des processus liés à l'architecture globale. Il est fondé sur la transformation des règles d'agrégation en une table relationnelle de mapping qui permet le stockage, la vérification des règles, la création des niveaux de hiérarchie.

4- Nous nous sommes par ailleurs intéressés à l'évaluation de la performance de notre modèle d'entrepôt de données évolutif. Or, l'évaluation de la performance des modèles est généralement basée sur une charge (ensemble de requêtes utilisateurs). Lorsqu'un changement au niveau du schéma de l'entrepôt de données se produit, la charge doit être mise à jour. Dans ce contexte, nous proposons ici une méthode de mise à jour incrémentale de la charge.

Pour valider nos différentes contributions, nous avons développé la plateforme WEDriK (data Warehouse Evolution Driven by Knowledge), qui permet la personnalisation des analyses. Elle se base sur un entrepôt de données évolutif stocké dans le SGBD relationnel Oracle d'une part et sur une interface Web programmée en PHP d'autre part.

Les problèmes posés dans ce mémoire sont directement issus de la réalité de l'entreprise LCL avec laquelle nous avons collaboré. LCL a constitué un véritable terrain d'application pour mettre en \oe uvre nos solutions de personnalisation. Nous nous sommes également intéressés à la personnalisation dans sa définition plus classique, dans le cadre de la gestion des interfaces et de la recherche d'information, au travers du travail d'ingénierie que nous avons réalisé pour cette entreprise durant le développement d'une plateforme pour la gestion des demandes de marketing local : la plateforme MARKLOC.

Mots-clés : entrepôt de données, évolution de schéma, hiérarchie de dimension, mise à jour, personnalisation, utilisateur, règles d'agrégation, analyse en ligne, performance, évolution de charge.