Publications of the ERIC lab
AIGLE

(92) Production(s) of DARMONT J.

|
|
The Design of DWEB 
Author(s): DARMONT J., BENTAYEB F., BOUSSAID O.
Expert Report:
Ref HAL: hal-00143364_v1
Abstract: Data warehouse architectural choices and optimization techniques are critical to decision support query performance. To facilitate these choices, the performance of the designed data warehouse must be assessed. This is usually done with the help of benchmarks, which can either help system users comparing the performances of different systems, or help system engineers testing the effect of various design choices. While the TPC standard decision support benchmarks address the first point, they are not tuneable enough to address the second one and fail to model different data warehouse schemas. By contrast, our Data Warehouse Engineering Benchmark (DWEB) allows to generate various adhoc synthetic data warehouses and workloads. DWEB is fully parameterized to fulfill data warehouse design needs. However, two levels of parameterization keep it relatively easy to tune. Finally, DWEB is implemented as a Java free software that can be interfaced with most existing relational database management systems. A sample usage of DWEB is also provided in this paper.
---------
|

|
|
Vers l'auto-administration des entrepôts de données
Author(s): Aouiche Kamel, DARMONT J., Gruenwald Le
(Article) Published:
Revue des Nouvelles Technologies de l'Information (RNTI), vol. (2003) p.1-12
Comments: rnti03adg
|

|
|
Intégration efficace de méthodes de fouille de données dans les SGBD 
Author(s): Udréa Cédric, BENTAYEB F., DARMONT J., BOUSSAID O.
Proceedings: Conference: 4èmes Journées Francophones d'Extraction et de Gestion des Connaissances (EGC 04) (Clermont-Ferrand, FR, 2004)
Published: Actes des 4èmes Journées Francophones d'Extraction et de Gestion des Connaissances (EGC 04), vol. 2 (2004) p.83-94
Ref HAL: hal-00321112_v1
Abstract: Cet article présente une nouvelle approche permettant d'appliquer des algorithmes de fouille, en particulier d'apprentissage supervisé, à de grandes bases de données et en des temps de traitement acceptables. Cet objectif est atteint en intégrant ces algorithmes dans un SGBD. Ainsi, nous ne sommes limités que par la taille du disque et plus par celle de la mémoire. Cependant, les entrées-sorties nécessaires pour accéder à la base engendrent des temps de traitement longs. Nous proposons donc dans cet article une méthode originale pour réduire la taille de la base d'apprentissage en construisant sa table de contingence. Les algorithmes d'apprentissage sont alors adaptés pour s'appliquer à la table de contingence. Afin de valider notre approche, nous avons implémenté la méthode de construction d'arbre de décision ID3 et montré que l'utilisation de la table de contingence permet d'obtenir des temps de traitements équivalents à ceux des logiciels classiques.
|

|
|
Conception d'un banc d'essais décisionnel 
Author(s): DARMONT J., BENTAYEB F., BOUSSAID O.
Proceedings: Conference: Journées de Bases de Données Avancées (BDA) (, , 2004-10-19)
Published: 20èmes Journées Bases de Données Avancées (BDA 04), Montpellier, vol. (2004) p.493-511
Ref HAL: hal-00143501_v1
Ref Arxiv: 0704.3501
Abstract: We present in this paper a new benchmark for evaluating the performances of data warehouses. Benchmarking is useful either to system users for comparing the performances of different systems, or to system engineers for testing the effect of various design choices. While the TPC (Transaction Processing Performance Council) standard benchmarks address the first point, they are not tuneable enough to address the second one. Our Data Warehouse Engineering Benchmark (DWEB) allows to generate various ad-hoc synthetic data warehouses and workloads. DWEB is fully parameterized. However, two levels of parameterization keep it easy to tune. Since DWEB mainly meets engineering benchmarking needs, it is complimentary to the TPC standard benchmarks, and not a competitor. Finally, DWEB is implemented as a Java free software that can be interfaced with most existing relational database management systems.
Comments: 20 pages
---------
|

|
|
Efficient Integration of Data Mining Techniques in Database Management Systems 
Author(s): BENTAYEB F., DARMONT J., Udréa Cédric
Proceedings: Conference: 8th International Database Engineering and Applications Symposium (IDEAS 04) (Coimbra, PT, 2004)
Published: Proceedings of the 8th International Database Engineering and Applications Symposium (IDEAS 04), vol. (2004) p.59-67
Ref HAL: hal-00321982_v1
Abstract: In this paper, we propose a new approach for applying data mining techniques, and more particularly supervised machine learning algorithms, to large databases, in acceptable response times. This goal is achieved by integrating these algorithms within a Database Management System. We are thus only limited by disk capacity, and not by available main memory. However, the disk accesses that are necessary to scan the database induce long response times. Hence, we propose an original method to reduce the size of the learning set by building its contingency table. The machine learning algorithms are then adapted to operate on this contingency table. In order to validate our approach, we implemented the ID3 decision tree construction method and showed that using the contingency table helped us obtaining response times equivalent to those of classical, in-memory software.
|

|
|
Sélection automatique d'index dans les entrepôts de données 
Author(s): Aouiche Kamel, DARMONT J., BOUSSAID O.
Proceedings: Conference: atelier Fouille de Données Complexes dans un processus d'extraction des connaissances, EGC (Clermont-Ferrand, FR, 2004-01)
Published: 1er atelier Fouille de Données Complexes dans un processus d'extraction des connaissances, EGC 04, vol. (2004) p.91-102
Ref HAL: hal-00144224_v1
Abstract: L'efficacité de l'interrogation d'un entrepôt de données est liée à sa conception physique. Cette conception repose sur la sélection d'index pertinents et leur combinaison avec les vues matérialisées. La sélection d'index est un problème NP-complet car le nombre d'index est exponentiel en nombre total d'attributs dans la base. Il faut donc concevoir et mettre en oeuvre des méthodes permettant de réduire cette complexité afin de recommander un ensemble d'index (configuration). Dans cet article, nous proposons une méthode pour la sélection d'index basée sur la fouille de données (recherche des motifs fréquents, classification). Le contexte d'extraction de connaissances est construit après l'analyse des requêtes du journal des transactions exécutées. Les index de la configuration obtenue sont ensuite créés après une étape d'optimisation liée aux spécificités du SGBD utilisé.
---------
|

|
|
Une plate-forme dynamique pour l'évaluation des performances des bases de données à objets
Author(s): He Zhen, DARMONT J.
(Article) Published:
Ingénierie des Systèmes d'Information, vol. 9 (2004) p.109-127
Comments: isi04hd
|