Axe FOuille de Données et Apprentissage

Présentation axe FODA

Présentation générale

L'axe FOuille de Données et Apprentissage (FODA) a pour but l'animation de la recherche et la réalisation de travaux théoriques et algorithmiques novateurs pour analyser de grands corpus de données complexes, notamment ceux issus des domaines d'application privilégiés du laboratoire, à savoir Santé et Environnement et Sciences Humaines et Sociales. L'activité des chercheurs rattachés à titre principal ou secondaire à cet axe s'organise autour de trois thèmes principaux décrits ci-dessous.

Les trois thèmes principaux de l'axe

L'apprentissage topologique a pour objet la recherche du meilleur espace de représentation compte tenu de la nature hétérogène des données complexes, de leur volume et de leur non linéarité en exploitant la dualité entre l'espace métrique et l'espace topologique. Il s'agit de mettre au point des mesures de similarité adaptées aux données complexes qui rendraient l'espace de représentation de ces données complexes plus discriminant et d'établir un passage entre représentation topologique et représentation vectorielle afin de contourner les limitations des méthodes basées sur le Mutidimensional scaling (MDS). Différents ateliers portant sur l'apprentissage topologique ont été organisés en collaboration avec des conférences internationales réputées, notamment ICDM et PKDD.

L'apprentissage par règles présente l'intérêt de fournir des connaissances intelligibles, même si ses performances sont parfois dépassées par des méthodes de type boite noire. L'un des buts recherchés ici est l'élaboration de méthodes fondées sur le plan théorique qui permettent de remédier au léger déficit de performances des méthodes à base d'induction de règles tout en gardant au maximum l'intelligibilité des règles. On peut citer le cas du déséquilibre des classes et celui des procédures itératives à base de règles pour lesquels des solutions originales ont été proposées. Parmi les autres buts, on mentionnera l'analyse et la mise au point de mesures de l'intérêt des connaissances extraites (cf. Atelier QIMIE/PAKDD 09).

Le thème fouille de corpus complexes porte plus particulièrement sur la modélisation et l'analyse de corpus de données complexes (textes en langage naturel, images, méta-données, etc.) et de réseaux sociaux, en collaboration avec l'axe DECCO. La complexité de ces données interconnectées (volume, hétérogénéité, redondance, bruit) et leur caractère évolutif  exigent des solutions nouvelles. Les applications sont nombreuses, par exemple fouille d'opinion sur le Web, construction automatique de réseaux sociaux et extraction d'entités remarquables (messages, rôles), annotation semi-automatique de documents qui relèvent souvent du clustering semi-supervisé ou de l'apprentissage semi-supervisé.

Tanagra, une plate-forme ouverte de data-mining

De nombreuses méthodes de fouille de données ont été implémentées dans TANAGRA, une plate-forme de data-mining en constante évolution, mise à disposition de la communauté scientifique intéressée par la data mining et ses applications

Membres de l'axe FODA à titre principal

AIGLE
0 Membres

Pas de réponse? Les utilisateurs DOIVENT etre affectés à un ou plusieurs Thèmes/Services

Membres de l'axe FODA à titre secondaire

AIGLE
2 Membres

GAVIN Gérald
SID

Maître de Conférences
gavin_AT_univ-lyon1.fr

Tel: 0472432752

RICO Fabien
DMD

Maître de Conférences
fabien.rico_AT_univ-lyon1.fr

Tel: 0478771048