|
|
Activité d'Enseignement et de Recherche |  Enseignement | - Licence Informatique Décisionnelle : Bases de Données Relationnelles
- Master 1ère année : Algèbre linéaire, Analyse des Données, Agrégation de préférences et analyse multicritères pour la décision
- Master 2ème année Spécialité "Extraction des Connaissances à partir des Données" : Introduction à la fouille de données et graphes d'induction
- Master 2ème année Spécialité "Informatique Décisionnelle" parcours 2iD et SISE : Fouille de données, méthodes et algorithmes
- Master 2ème année Spécialité "Informatique Décisionnelle" parcours 2iD : Applications en Fouilles de données
- Erasmus Mundus Master DMKM "Feature Selection", "Machine Learning"
|
|  Encadrement de thèses et HDR | - Samia Amghar (thèse soutenue 1995) : Approche géométrique de l'apprentissage numérique supervisé: une formalisation prétopologique
- Marc Sebban (Thèse soutenue en 1996) : Modèles Théoriques en Reconnaissance de Formes et Architecture Hybride pour Machine Perceptive
- Sabine Loudcher (Thèse soutenue en 1996) : Contributions à l'extraction automatique de connaissances : application à l'analyse clinique de la marche
- Ricco Rakotomalala (Thèse soutenue en 198) : Graphes d'Induction
- Gérald Gavin (Thèse soutenue en 2001) : Etude du modèle d'apprentissage Probablement approximativement correct (PAC) : application aux méthodes d'agrégation
- Stéphane Lallich, (HDR soutenue en décembre 2002) : Mesure et validation en extraction des connaissances à partir des données
- Nadir Belkhiter, (HDR soutenue en décembre 2002) : Communication homme-machine et décomposition des relations binaires avec application à divers domaines en informatique
- Fabrice Muhlenbach, (Thèse soutenue en décembre 2002)
- Jérémy Clech, (Thèse soutenue en mars 2004) : Contribution Méthodologique à la Fouille de Données Complexes
- Edwige Fangseu Badjio (Thèse soutenue en décembre 2005) : Visualisation et fouille de données
- François Poulet, (HDR soutenue en décembre 2005) : Visualisation et fouille de données
- Walid Erray (Thèse soutenue en juillet 2006) : Extensions et nouvelles approches en graphes d'induction. Application aux grandes bases de données
- Jérôme Darmont (HDR soutenue en décembre 2006)
- Philippe Lenca (HDR soutenue à Lyon 2 le 10 décembre 2007) : des données à la décision : apprentissage, validation et exploitation de règles
- Hakim Hacid (Thèse Soutenue le 4 Février 2008) : Un environnement informatique pour l'interrogation et l'accès intelligent aux bases de données complexes
- Ahmad El Sayed (Thèse soutenue le 28 avril 2008) : Recherche d'information par le contenu dans les bases Multimédia
- Julien Charbel (Thèse soutenue le 16 juin 2008) : Image, Statistical Learning Using Mixture Models, Thèse en co-tutelle avec l'Université du Piémont Oriental (Italie)
- Simon Marcelin (Thèse soutenue le 2 septembre 2008) :Arbres de décision en situation d'asymétrie
- Julien Thomas (Thèse soutenue le 12 février 2009 ) : Apprentissage supervisé de données déséquilibrées par forêt aléatoire.
- Mavrikas Efthimios (Thèse soutenue le 7 octobre 2010) : Entre les mots : Méthodes d'analyse informatique du discours idélogique.
- Quoreshi Taimur (Thèse soutenue le 12 juin 2010) : Contribution to decision tree based learning
- Vincent Pisetta : Apprentiisage à partir d'arbres aléatoires : nouveaux apports
- Mathilde Forestier : (Co-encadrement de Julien Velcin) : Fouille de données complexes appliquée à l'analyse des opinions
- Dialla Azzedine : (Co-encadrement de Fabien Rico) : Classifieurs Topologiques Aléatoires
|
|  Recherches | | Mes activités de recherche se situent dans le domaine de l'extraction des Connaissances à partir des Données. Ils visent à définir de nouvelles méthodologies et à proposer des outils informatiques permettant l'accès au contenu sémantique des grandes bases de données. Mes travaux s'étalent sur un spectre de sujets relativement large qui couvre une grande partie du cycle d'Extraction de Connaissances à partir des Données (ECD). Ces dernières années, une attention particulière a été accordée à la prise en compte des données complexes (hétérogènes, volumineuses, non structurées) dans le processus d'ECD. Ce cadre spécifique a permis de faire émerger de nouveaux problèmes et des défis tant théoriques que technologiques pour répondre aux besoins des applications réelles. |
|  Travaux en Recherche d'Information à partir de données complexes | | La Recherche d'Information dans les Entrepôts de données Complexes (RIEC) pose des problèmes de nature spécifique. En effet, dans tous les processus de recherche d'information il est nécessaire de se doter soit d'une mesure de similarité entre les objets soit d'une structure topologique sur ces mêmes objets sans avoir à expliciter la mesure de similarité sous jacente. Dans le cas où les données sont tabulaires, il existe une multitude d'indices de similarité. Mais, dans le cas où les données sont non structurées, comme par exemple pour les molécules chimiques, les textes, les images, les séries temporelles, les vidéos ou les documents multimédia, définir une proximité entre objets n'est pas aisé. |
|  Travaux en Préparation des données | | Dans l'ECDC, plus qu'ailleurs, la préparation des données pour la fouille s'avère plus ardue. Le principal problème qui se pose est celui du choix de l'espace de représentation. En effet, à l'origine, les instances d'objets enregistrés dans la base de données sont exprimées dans un formalisme qui ne se prête pas ou peu aux traitements mathématiques qui fondent la plus part des méthodes de fouille de données. Le passage par un codage unifié, généralement sous forme vectorielle, s'avère souvent incontournable. Comment alors passer de données textuelles, images, vidéo, temporelles vers des vecteurs ? Faut-il " vectoriser " et tout aligner dans un tableau unique ? Ces choix ne sont pas neutres car ils peuvent engendrer, à leur tour, d'autres difficultés. Par exemple, le choix de coder par un vecteur numérique les textes, exige des procédés linguistiques qui sont souvent très sophistiqués et où l'intuition, les connaissances a priori du domaine et même les choix arbitraires sont couramment mis à contribution. Et cela, sans, pour autant, être certain du bon choix. Comment alors réduire la dimensionnalité avec une perte minimale d'information ? Par sélection ? Par élimination ? Par projection ? Et, surtout, comment évaluer la pertinence du nouvel espace de représentation ? De plus, les données qui arrivent sont parfois entachées de bruits et incomplètes. Par exemple, le contenu des courriers électroniques réunit bon nombre de ces problèmes. A défaut de redresser les anomalies, peut-on au moins prendre en compte l'incomplétude, l'incertitude et l'imprécision dans nos analyses ? |
|  Fouille de données | | La fouille de données opère, le plus souvent, sur des structures tabulaires, préparées à la phase précédente. C'est, généralement, la partie la plus visible du processus de fouille car, c'est à ce stade que l'on produit les connaissances sous la forme de modèles : règles logiques, algébriques, probabilistes, topologiques etc. Et, pour cela, on fait appel aux méthodes d'apprentissage, qu'elles soient supervisées ou non, aux méthodes exploratoires comme les algorithmes de recherche des règles d'association, aux analyses factorielles, ou aux méthodes de modélisation comme les réseaux bayésiens etc. Nous travaillons sur des données réelles et nous avons été souvent confrontés à la sous-représentation de certaines classes d'intérêt. Dans ce cas, la mise en œuvre des méthodes d'apprentissage supervisé nécessite une prise en compte et un contrôle de l'asymétrie des classes. L'étude à la fois des propriétés théoriques de ces mesures ainsi que leurs performances sur des Benchmarks a débouché sur de nouvelles mesures d'entropie généralisées. Nous avons également proposé de nouvelles axiomatiques pour ces mesures qui donnent par ailleurs des résultats plus probants sur des cas pratiques. A l'issue du processus de fouille de données, les utilisateurs préfèrent disposer de modèles de prédiction intelligibles comme ceux qui sont issus des arbres ou des graphes de décision et qui s'expriment sous la forme de règles logiques. Mais, l'utilisation de ces algorithmes se heurte à des difficultés quand par exemple les variables possèdent une large distribution qui nécessite des groupements de modalités ou quand la variable à prédire est d'un genre particulier par exemple une courbe de survie ou un vecteur. Nous avons proposé plusieurs extensions aux méthodes basées sur les arbres de décision |
|
|
|
|
|