Publications of the ERIC lab
AIGLE


|
|
ETL-Text: Extract-Transform-Load Processes for Textual Data Warehousing
Author(s): AKNOUCHE R. , ASFARI O. , BENTAYEB F., BOUSSAID O.
Proceedings: Conference: EPIA 2013 (16th Portuguese Conference on Artificial Intelligence) (, PT, 2013-09-09)
Published: Proceedings. Lecture Notes in Computer Science (LNCS), Springer, vol. (2013) p.to appear
Abstract: The construction of the ETL (Extract-Transform-Load) process is one of the biggest tasks of building a warehouse. ETL processes area has little research, because of its difficulty and lack of formal model for representing ETL activities that map the incoming data from different sources to be in a suitable format for loading into the warehouse. A main problem in data warehousing of multidimensional text databases is to deal with the content in its text cells. In this paper, we propose a model for textual data warehouse ETL processes called ETL-Text. It combines classical data warehousing tasks, information retrieval (IR) techniques, and information processing in particular the language modeling. Our approach is based on Wikipedia as external knowledge source to extract the semantics of the textual documents. To validate our approach, we develop a prototype composed of several processing modules that illustrate the different ETL-Text processes. Also, we use the 20 Newsgroups corpus to perform our experimentation.
|

|
|
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté
Author(s): Oukid Lamia, ASFARI O. , BENTAYEB F., BOUSSAID O.
Proceedings: Conference: 9èmes Journées Francophones sur les Entrepôts de données et Analyse en Ligne (Blois, FR, 2013-06-13)
Published: RNTI, vol. (2013) p.to appear
Abstract: Les technologies d'entreposage de données et d'analyse en ligne OLAP (On-Line Analytical Processing) ont largement fait leurs preuves pour l'analyse de données structurées, mais elles sont inadaptées pour l'analyse des données textuelles, faute d'outils et de méthodes adaptés. Nous proposons dans cet article, un modèle de cube textuel nommé TCube, qui comporte plusieurs dimensions sémantiques, pour une meilleure prise en charge de la sémantique des données textuelles. Les attributs de chaque dimension sémantique sont regroupés dans une hiérarchie de concepts, extraite d'une ontologie de domaine comme une ressource externe. Notre cube de textes comprend une mesure d'analyse textuelle qui s'appuie sur un modèle vectoriel adapté à l'analyse OLAP et une technique de propagation de pertinence. Il est également associé à un nouvel opérateur d'agrégation permettant d'agréger les données textuelles dans un environnement OLAP. Les résultats préliminaires de notre étude expérimentale montrent l'intérêt de notre approche.
|

|
|
Les entrepôts de données pour les nuls... ou pas ! 
Author(s): FAVRE C. , BENTAYEB F., BOUSSAID O., DARMONT J., GAVIN G., HARBI N., KABACHI N., LOUDCHER S.
Proceedings: Conference: 2ème Atelier aIde à la Décision à tous les Etages (EGC/AIDE 13) (Toulouse, FR, 2013-01-29)
Published: 2ème Atelier aIde à la Décision à tous les Etages (EGC/AIDE 13), vol. (2013) p.-
Ref HAL: hal-00783638_v1
Abstract: Dans cet article, nous portons notre regard sur l'aide à la décision du point de vue des systèmes décisionnels au sens des entrepôts de données et de l'analyse en ligne. Après avoir défini les concepts qui sous-tendent ces systèmes, nous nous proposons d'aborder les problématiques de recherche qui leur sont liées selon quatre points de vue : les données, les environnements de stockage, les utilisateurs et la sécurité. Nous abordons finalement les problèmes qui restent ouverts dans le domaine des entrepôts de données.
|

|
|
Communitiy Extraction based on Topic-Driven-Model for Clustering Users Tweets
Author(s): Hannachi Lilia, ASFARI O. , BENTAYEB F., KABACHI N., BOUSSAID O.
Proceedings: Conference: The 8th International Conference on Advanced Data Mining and Applications (ADMA 2012) (Nanjing, CN, 2012-12-15)
Published: Springer, Lecture Notes in Artificial Intelligence (LNAI)., vol. (2012) p.39-51
Abstract: Twitter have become a significant means by which people communicate with the world and describe their current activities, opinions and status in short text snippets. Tweets can be analyzed automatically in order to derive much potential information such as, interesting topics, social influence, user's communities, etc. Extraction communities within social networks has been a focus of recent work in several areas. Different from the most community discovery methods focused on the relations between users, we aim to derive user's communities based on common topics from user's tweets. For instance, if two users always talk about politic in their tweets, thus they can be grouped in the same community which is related to politic topic. To achieve this goal, we propose a new approach called CETD: Community Extraction based on Topic-Driven-Model. This approach combines our proposed model used to detect topics of the user's tweets based on a semantic taxonomy together with a community extraction method based on the hierarchical clustering technique. Our experimentation on the proposed approach shows the relevant of the users communities extracted based on their common topics and domains.
---------
|

|
|
Complex Object-Based Multidimensional Modeling and Cube Construction In the International
Author(s): BOUKRAA D., BOUSSAID O., BENTAYEB F.
(Article) Accepted:
Fundamenta Informaticae, vol. (2012) p.In press
Abstract: Complex Object-Based Multidimensional Modeling and Cube Construction In the International
Comments: Special issue on Warehousing and OLAPing Complex, Spatial and Spatio-Temporal Data
|

|
|
Integrating Query Context and User Context in an Information Retrieval Model Based on Expanded Language Modeling
Author(s): AKNOUCHE R., ASFARI O., BENTAYEB F., BOUSSAID O.
Proceedings: Conference: International Cross Domain Conference and Workshop, ARES 2012 (Prague, CZ, 2012-08-20)
Published: Lecture Notes in Computer Science (LNCS), Springer-Verlag, vol. (2012) p.244-258
Abstract: Access to relevant information adapted to the needs and the context of the user is a real challenge. The user context can be assimilated to all factors that can describe his intentions and perceptions of his surroundings. It is difficult to find a contextual information retrieval system that takes into account all contextual factors. In this paper, both types of context user context and query context are integrated in an Information Retrieval (IR) model based on language modeling. Here, the query context include the integration of linguistic and semantic knowledge about the user query in order to explore the most exact understanding of user's information needs. In addition, we consider one of the important factors of the user context, the user's domain of interest or the interesting topic. A thematic algorithm is proposed to describe the user context. We assume that each topic can be characterized by a set of documents from the experimented corpus. The documents of each topic are used to build a statistical language model, which is then integrated to expand the original query model and to re-rank the retrieved documents. Our experiments on the 20_Newsgroups corpus show that the proposed contextual approach improves significantly the retrieval effectiveness compared to the basic approach, which does not consider contextual factors.
|

|
|
Prise en compte du contexte utilisateur pour améliorer la recherche d’information : Application au corpus 20 Newsgroups 
Author(s): AKNOUCHE R., BENTAYEB F.
Proceedings: Conference: 6ème édition Atelier des Systèmes Décisionnels (ASD 2012) (BLIDA, DZ, 2012-04-01)
Published: 6ème édition Atelier des Systèmes Décisionnels (ASD 2012), vol. (2012) p.71-82
Ref HAL: hal-00713095_v1
Abstract: L’accès à une information pertinente, adaptée aux besoins et au contexte de l’utilisateur, est un véritable défi pour la communauté de la recherche d’information (RI). Les systèmes de recherche d’information (SRI) classiques ne prennent pas en compte les facteurs contextuels dans le processus d’appariement et/ou dans la phase de classement des résultats. Ils s’intéressent plutôt aux métriques de pondération et aux formules de calcul de similarité entre les termes
de la requête utilisateur et ceux des documents du corpus. Dans cet article, nous proposons une approche de RI qui prend en compte à la fois les paramètres contextuels et les centres d’intérêts de l’utilisateur obtenus par un processus de segmentation thématique des documents. Ainsi, nous proposons une adaptation de la formule TF-IDF pour considérer les unités thématiques, représentées sous
forme de fragments de texte, lors de la phase de représentation et de classification des documents . Nos expérimentations réalisées sur le corpus 20 Newsgroups montrent une nette amélioration des taux de précision par rapport aux SRI classiques qui ne considèrent pas les facteurs contextuels.
|