10h30 – ERIC – Salle K071
Titre : Exploration et valorisation de mégadonnées en SHS
Résumé : Les méthodes d’extraction d’informations, telles que les méthodes de reconnaissance d’entités nommées, de résolution de la coréférence ou d’extraction de relations, visent à produire des données structurées, à partir de données peu ou non-structurées telles que des textes, qui peuvent être exploitées à diverses fins, telles que la création de bases de données, la population d’ontologies ou le raisonnement automatique. Ainsi, dans un contexte de recherches en sciences humaines et sociales (SHS), l’application de ces méthodes est particulièrement intéressante, notamment pour envisager l’annotation sémantique de corpus à grande échelle, et ainsi pouvoir en faciliter l’étude critique.
Dans cette présentation, je reviendrai sur l’application de méthodes d’extraction d’informations à des corpus en SHS de diverses natures (périodiques du 19ème et 20ème siècles, articles scientifiques) dans le cadre des projets EMONTAL, SpaceWars et ANR InSciM. Je me focaliserai sur les approches que nous avons employées pour extraire différents types d’information (entités nommées, relations, informations géographiques…), ainsi que sur l’exploitation de ces informations, notamment au travers de techniques de visualisation, pour alterner entre une lecture proche et une lecture distante des corpus. J’aborderai également divers enjeux à l’application de ces méthodes dans un contexte SHS, notamment les étapes de préparations de corpus, le manque de données dédiées et le besoin d’évaluer les approches selon diverses métriques (performances, extensibilité, l’interprétabilité et la frugalité)
