Action ADOC - GdR MaDICS

Responsables

Jérôme Darmont, ERIC Lyon
Natalia Grabar, STL Lille
Olivier Teste, IRIT Toulouse

Thématiques

Bases de données, Fouille de données, Recherche d'information, Web sémantique

Données concernées

Documents principalement textuels, mais pouvant inclure d'autres éléments comme des tableaux, des graphiques ou des images

Mots clés

Entrepôts de données, Intégration de données (ETL), Modèles multidimensionnels, Analyse en ligne (OLAP), Documents, Texte, Sémantique, Humanités numériques

Contexte scientifique

L'entreposage de données (data warehousing) consiste à faciliter l'accès aux données dites décisionnelles en les intégrant par des processus ETL (Extract, Transform, Load) dans des espaces de stockage dédiés (data warehouses, datamarts) dans lesquels les données sont préparées de sorte à rendre plus performant l'accès, l'interrogation et l'analyse de données. Afin d'offrir des temps de réponse efficaces aux analyses en ligne (On-Line Analytic Processing ou OLAP), les données sont habituellement stockées et pré-agrégées au sein d'un SGBD relationnel pour accélérer le calcul des requêtes induites par les analyses. Ce type d'approche est robuste devant des données peu volatiles, structurées, numériques et additives, et dans un volume qui peut être relativement important.

De par le développement des technologies de l'information et de la communication (TIC), l'humanité produit des masses de données, appelées mégadonnées (big data) dans des proportions sans équivalent jusqu'ici. De nouveaux systèmes de gestion de données, dits Not-Only SQL ou New SQL, se développent en conséquence, ainsi que de nombreux logiciels. Ces systèmes reposent sur une gestion de la variabilité par des modèles de description de données assouplis (schemaless). Ils gèrent de grands volumes par un stockage de données massivement distribué (scalability) et extensible. De nouveaux paradigmes de programmation (MapReduce, Spark, Impala...) permettent le développement de traitements capables de porter sur ces données massivement distribuées. Ces principes de programmation induisent des transferts de données structurées en clé/valeur. De nouvelles infrastructures décentralisées et virtualisées (cloud) offrent, par l'intermédiaire d'un réseau, des moyens de stockage et de calculs distants. Ces ressources sont exploitées par tranches d'utilisation selon des critères techniques et économiques. Dans ce contexte, l'adaptation des concepts des entrepôts de données et de l'analyse en ligne sont remis en cause dans toutes les dimensions des mégadonnées (variété, vélocité, volume, véracité).

Dans les disciplines des sciences humaines et sociales (SHS), les humanités numériques, initiées dans les années 1950 par les travaux de Roberto Busa sur les œuvres complètes de Thomas d'Aquin, ont bénéficié de l'essor des TIC et permis la multiplication de nombreux corpus de données, notamment textuelles, mais pas seulement. On peut également mentionner divers réseaux (d'auteurs, d'acteurs, d'occurrences...) modélisés via les technologies du Web sémantique, par exemple. Au-delà de la diffusion et du partage du savoir, l'exploitation de corpus de documents, pour l'analyse de réseaux, la visualisation de données statistiques, l'attribution d'auteurs ou la prospective, n'est pas triviale, principalement dans les dimensions variété et véracité des mégadonnées. Ces mégadonnées remettent également en cause les approches d'entreposage et d'analyse en ligne classiques, tant dans la modélisation multidimensionnelle des documents, qui pourrait se nourrir des modèles de textes alliant approches qualitatives et quantitatives développés en humanités numériques, que dans leur agrégation (au-delà de résumés ou de mots-clés) à des fins décisionnelles.

L'action ADOC rassemble des laboratoires de recherche de deux domaines :

laboratoires d'informatique spécialisés dans les systèmes d'information et les bases de données, avec un focus sur les entrepôts de données et l'analyse en ligne, déjà engagés dans des projets liés aux mégadonnées et notamment le traitement de documents textuels et la prise en compte de la sémantique des données ;
laboratoires de SHS engagés dans les humanités numériques et des démarches de diffusion, de modélisation et d'analyse de mégadonnées (documents, réseaux), qui sont à la fois des "fournisseurs" et des "consommateurs" de données, mais interrogent également les informaticiens par leur démarche scientifique, qui induit une réflexion pluridisciplinaire sur les processus de traitement des mégadonnées.

L'objectif de l'action ADOC est donc de rapprocher les communautés de gestion et d'entreposage des données de celles des SHS impliquées dans les humanités numériques, afin d'incorporer des éléments méthodologiques utilisés en SHS (par exemple, processus de constitution de corpus et de mise en relation de données, méthodologies d'analyse de corpus...) dans les processus de conception informatiques (par exemple, intégration des données, navigation et visualisation des données...), et vice versa.

ADOCEntrepôts et analyse de documents

Responsables

Thématiques

Données concernées

Mots clés

Contexte scientifique

ADOC
Entrepôts et analyse de documents