BibTeXWeb: Publications of Jérôme Darmont

Publications of Jérôme Darmont

Reference (inproceedings)

X. Wang, J. Ah-Pine, J. Darmont, "A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework", Rencontres Jeunes Chercheurs en Recherche d'Information (CORIA 17), Marseille, March 2017.

Abstract

L'hypothèse de cluster est l'hypothèse fondamentale de l'utilisation du clustering dans la recherche d'information. Elle indique que les documents semblables ont tendance à être pertinents pour la même requête. Des travaux passés testent intensivement cette hypothèse avec les méthodes de la classification ascendante hiérarchique (CAH). Mais leurs conclusions ne sont pas cohérentes en termes d'efficacité de la recherche. La limite principale dans ces travaux est le problème de passage à l'échelle lié a là CAH. Dans cet article, nous étendons nos travail précédent à un nouveau test de l'hypothèse de cluster en appliquant un système extensible de CAH basé sur la similarité. Principalement, la matrice de similarité cosinus est sparsifiée par des seuils pour réduire l'occupation mémoire et le temps de calcul. Nos résultats montrent que même quand la matrice est largement sparsifiée, l'efficacité de la recherche est maintenue pour toutes les méthodes, dont le complete et l'average ne dominent pas toujours les autres.

Keywords

Hypothèse de cluster, classification ascendante hiérarchique, efficacité

[ BibTeX | XML | Full paper | Back ]