Back RSS stream

Publications of Jérôme Darmont

Reference (misc)

C.O. Truica, J. Darmont, A. Boicea, F. Radulescu, "Le calcul des top-k mots clés et documents au banc d'essais avec T²K² et T²K²D²", 34e Conférence sur la Gestion de Données – Principes, Technologies et Applications (BDA 2018), Bucarest, Roumanie, Octobre 2018 (résumé).

Abstract

La recherche des top-k mots clés et documents est très utilisée en analyse de texte. Les top-k mots clés et documents sont souvent calculés à la volée, mais ils exploitent des vocabulaires pondérés qui sont coûteux à construire. Afin de comparer des méthodes de pondération et des implémentations en bases de données, des bancs d'essais sont habituellement utilisés. Toutefois, à notre connaissance, aucun banc d'essais de traite ces problèmes. C'est pourquoi nous présentons dans cet article T²K², un banc d'essais dédié aux top-k mots clés et documents, ainsi que son évolution décisionnelle T²K²D². Ces deux bancs d'essais incluent un jeu de données de tweet et des requêtes de complexité et de sélectivité variées. Ils permettent d'évaluer des méthodes de pondération et des implémentations en bases de données en termes de temps de calcul. Afin d'illustrer la pertinence et la généricité de nos bancs d'essais, nous comparons les méthodes de pondération TF-IDF et Okapi BM25, d'une part, sur des implémentations dans des bases de données relationnelles (Oracle, PostgreSQL) et orientée document (MongoDB), d'autre part.

Keywords

Top-k mots clés, Top-k documents, Analyse de texte, Bancs d'essais, Méthodes de pondération, Bases de données

 

[ BibTeX | XML | Full paper | Back ]