Présentation axe FODA
Présentation générale
L'axe FOuille de Données et Apprentissage (FODA) a pour but l'animation de la recherche et la réalisation de travaux théoriques et algorithmiques novateurs pour analyser de grands corpus de données complexes, notamment ceux issus des domaines d'application privilégiés du laboratoire, à savoir Santé et Environnement et Sciences Humaines et Sociales. L'activité des chercheurs rattachés à titre principal ou secondaire à cet axe s'organise autour de trois thèmes principaux décrits ci-dessous.
Les trois thèmes principaux de l'axe
L'apprentissage topologique a pour objet la recherche du meilleur espace de représentation compte tenu de la nature hétérogène des données complexes, de leur volume et de leur non linéarité en exploitant la dualité entre l'espace métrique et l'espace topologique. Il s'agit de mettre au point des mesures de similarité adaptées aux données complexes qui rendraient l'espace de représentation de ces données complexes plus discriminant et d'établir un passage entre représentation topologique et représentation vectorielle afin de contourner les limitations des méthodes basées sur le Mutidimensional scaling (MDS). Différents ateliers portant sur l'apprentissage topologique ont été organisés en collaboration avec des conférences internationales réputées, notamment ICDM et PKDD.
L'apprentissage par règles présente l'intérêt de fournir des connaissances intelligibles, même si ses performances sont parfois dépassées par des méthodes de type boite noire. L'un des buts recherchés ici est l'élaboration de méthodes fondées sur le plan théorique qui permettent de remédier au léger déficit de performances des méthodes à base d'induction de règles tout en gardant au maximum l'intelligibilité des règles. On peut citer le cas du déséquilibre des classes et celui des procédures itératives à base de règles pour lesquels des solutions originales ont été proposées. Parmi les autres buts, on mentionnera l'analyse et la mise au point de mesures de l'intérêt des connaissances extraites (cf. Atelier QIMIE/PAKDD 09).
Le thème fouille de corpus complexes porte plus particulièrement sur la modélisation et l'analyse de corpus de données complexes (textes en langage naturel, images, méta-données, etc.) et de réseaux sociaux, en collaboration avec l'axe DECCO. La complexité de ces données interconnectées (volume, hétérogénéité, redondance, bruit) et leur caractère évolutif exigent des solutions nouvelles. Les applications sont nombreuses, par exemple fouille d'opinion sur le Web, construction automatique de réseaux sociaux et extraction d'entités remarquables (messages, rôles), annotation semi-automatique de documents qui relèvent souvent du clustering semi-supervisé ou de l'apprentissage semi-supervisé.
Tanagra, une plate-forme ouverte de data-mining
De nombreuses méthodes de fouille de données ont été implémentées dans TANAGRA, une plate-forme de data-mining en constante évolution, mise à disposition de la communauté scientifique intéressée par la data mining et ses applications
Membres de l'axe FODA à titre principal
0 Membres
|
Membres de l'axe FODA à titre secondaire
3 Membres
CLOT Denis |
| Tel: 0472443728 |
GAVIN Gérald | Maître de Conférences | Tel: 0472432752 |
RICO Fabien | Maître de Conférences | Tel: 0478771048 |


univ-lyon1.fr


