La visualisation sert généralement de pivot au processus de narration journalistique des données, dans un contexte où les données exploitées sont massives et multimodales : données textuelles peu ou pas structurées, images, sons et vidéos. L'objet de cet atelier est d'envisager comment l'on peut, en amont de l'étape de visualisation, permettre à des journalistes d'analyser seul.es des données (via l'Interactive Data Exploration/Analysis et la Personal Business Intelligence, par exemple) et, en aval, adapter la narration au public et rendre les dataviz interactives pour les lecteur.trices en ligne.
Programme
- Marie Chagnoux (CREM), Nicolas Labroche, Patrick Marcel (LIFAT)
Présentation des actions ADOC et MADONA
Transparents ADOC
- Raphael Da Silva (Rue 89 Strasbourg)
- Rémi Bois (Jouve)
Construction de liens entre informations pour l’exploration de données d’actualité
Le volume d'articles, de vidéos, ou d'émissions radio publié chaque jour par les médias est tel qu'il est impossible pour un humain d'en consulter une partie significative. Plusieurs solutions visant à réduire cette masse d'informations existent tels que le résumé automatique, le regroupement d'articles similaires, etc. Plutôt que de filtrer ou de transformer l'information, nous présentons ici une approche consistant à organiser de façon efficace de grandes collections d'actualités multimédias afin de permettre aux utilisateurs une exploration éclairée.
- Ioanna Manolescu (INRIA)
ContentCheck: modèles, algorithmes et outils de données pour le journalisme de données et la vérification
Dans le projet ANR ContentCheck (2016-2019), des chercheurs d'Inria Saclay, l'Ecole Polytechnique, et des Universités de Paris Sorbonne, Lyon, et Rennes se concentre sur le rôle que les techniques de gestion de contenus (données structurées, semi structurées et texte) peuvent jouer dans le journalisme moderne, et en particulier pour la vérification des faits. Le projet bénéficie de la participation et de l'expertise des Décodeurs, équipe du journal Le Monde spécialisée dans la vérification et le data journalisme. Je présenterai quelques résultats principaux de notre projet: ouverture des données statistiques de l'INSEE, recherche d'évènements intéressants dans des données statistiques telles que les votes au parlement EU ou encore la consommation de médicaments, ainsi qu'un modèle permettant l'analyse des déclarations faites dans la sphère publique.
- Cas d'usage sur les données DVF avec KNIME (logiciel libre et open-source d'analyse de données)
Numéro spécial de la revue "Recherche d’information, document et web sémantique"
Suite à la journée "Variété des données SHS" de mai 2018, l'action ADOC a édité des actes dans la revue RIDOWS.
Référence : J. Darmont, N. Grabar, O. Teste, Eds., About Variety in Humanities Big Data, Recherche d’information, document et web sémantique, Vol. 19, No. 1, ISTE OpenScience, London, UK, 2019.
Accès en ligne
L'action ADOC lance pour 2018-2019 un "défi données", dont l'objectif est d'enrichir et d'exploiter un corpus de données historiques publiées sous forme de LOD : le projet SIPROJURIS, système d'information des professeurs de droit (1804-1950). Trois modes de réponse (non mutuellement exclusives) à ce défi sont possibles.
- Enrichir la population du projet SIPROJURIS et les données disponibles en utilisant d'autres ressources du Web, par exemple Wikipedia/DBPedia, Wikidata, etc. Quelques exemples de requêtes.
- Répondre aux questions des historiens, en cherchant par exemple la profession des parents, les revenus, les publications, les mobilités ou les réseaux de collaboration. Autres exemples de questions.
- Aller au delà de ces deux réponses et nous surprendre !
Données
Calendrier
- Juillet 2018 : annonce du défi et mise à disposition des données
- 23 décembre 2018 : envoi des résultats
- 21-25 janvier 2019 : restitution des résultats durant la conférence EGC 2019 à Metz
Échangeons !
N'hésitez pas à nous contacter.
L'action ADOC du GdR CNRS MaDICS vise à mettre en relation des scientifiques en sciences humaines et sociales et en informatique, développant des recherches en gestion et analyse de documents et de grandes masses de données. Dans ce cadre, nous avons organisé une journée consacrée à la variété (au sens des big data) des données SHS sous la forme d'un atelier associé à la conférence INFORSID 2018.
Les contributions acceptées à cette journée ont compilées dans des actes électroniques de la revue RIDOWS.
Programme
- 08h55 : Accueil
Transparents
- 09h00 : Alexandre Serres (PREFics Rennes), Marie-Laure Malingre (URFIST Rennes), Morgane Mignon (MSH Bretagne), Cécile Pierre (SCD Rennes 2), Didier Collet (SCD Rennes 2)
Données de la recherche en SHS. Pratiques, représentations et attentes des chercheurs : une enquête à l'Université Rennes 2
Résumé , Transparents
- 10h00 : Ouverture d'INFORSID
- 10h30 : Pause café
- 10h45 : Claudia Marinica (ETIS Cergy-Pointoise), Fabrice Guillet (LS2N Nantes)
Une ontologie pour la gestion des événements et des usages d'objets patrimoniaux
Résumé
- 11h15 : Karine Abiven, Gaël Lejeune (STIH Paris-Sorbonne)
Analyse Automatique des Mazarinades : tirer profit d'un corpus bruité
Résumé , Transparents (version corrigée du 8 janvier 2019)
- 11h45 : Benjamin Hervy, Pierre Pétillon, Hugo Pigeon, Guillaume Raschia (LS2N Nantes)
Correction des données : retour d’expérience sur la plate-forme RECITAL de transcription participative
Résumé , Transparents
- 12h15 : Pause déjeuner
- 14h00 : Francesco Beretta (LARHRA Lyon), François Mistral (ABES Montpellier)
Enrichir et exploiter un corpus de données historiques publiées sous forme de LOD : le projet SIPROJURIS. Système d’information des professeurs de droit (1804-1950)
Résumé
- 15h00 : Sofia Papastamkou (MESHS Lille)
Construire des sources pour une analyse historique à partir des données nativement numériques du temps présent
Résumé
- 15h30 : Lucie Loubère, Natacha Souillard, Alexia Ducos (LERASS Toulouse)
Analyse de réseaux sociaux numérique, entre textes et liens de communautés
Résumé , Transparents
- 16h00 : Pause café
- 16h15 : Nathalie Neptune, Josiane Mothe, Juliu Akinyemi (IRIT Toulouse)
Données d'Observation de la Terre pour la Détection des Changements de Couverture du Sol : Cas de la Détection de la Déforestation
Résumé , Transparents
- 16h45 : Jacques Fize (TETIS Montpellier)
Exploitation de la spatialité sur des données textuelles hétérogènes provenant de Madagascar
Résumé , Transparents
- 17h45 : Ladjel Bellatreche (LIAS Poitiers), Selma Khouri (ESI Alger), Nabila Berkani (ESI Alger)
Approche Guidée par la Valeur et la Variété pour Concevoir des Entrepôts de Données Etendus
Résumé , Transparents
- 18h15 : Conclusion et clôture de la journée
Au sein du GdR CNRS MaDICS, l'action ADOC vise à mettre en relation des scientifiques en sciences humaines et sociales et en informatique, autour de la notion de gestion et d'analyse de documents. Dans ce cadre, nous avons organisé en conjonction avec la conférence EDA 2017 des journées consacrées à l'analyse de données textuelles.
Ces journées ont eu lieu à Lyon, campus Porte des Alpes (bâtiment i), du 3 au 5 mai 2017.
Programme
- Mercredi 3 mai, 16h-18h
- Accueil
Transparents
- Elise Bigeard (STL Lille/ERIAS, ISPED, INSERM U1219 Bordeaux)
Extraction de l'usage des médicaments dans les forums santé
Transparents
- Elena Viorica Epure (CRI Paris 1), S. Zitnik, D. Compagno, R. Deneckere, C. Salinesi
Automatic analysis of online conversations as processes
- Elina Leblanc (LUHCIE Grenoble)
Des services d'analyse des données participatifs : le cas de la bibliothèque numérique FONTE GAIA BIB
Transparents
- Max Beligné (EVS Lyon), A. Campar, J.H. Chauchat, M. Lefeuvre, I. Lefort, S. Loudcher, J. Velcin
Essai de détection automatique de métaphores à base de modèle de thématiques dans des textes de Géographie
Transparents
- Jeudi 4 mai, 10h30-12h30
- Christine Largeron (LHC Saint-Étienne), J. Fréry, M. Juganaru-Mathieu
Modèles de représentation textuels et méthodes d'apprentissage adaptés à l'identification d'auteurs
- Patrice Bellot (LSIS Aix-Marseille)
De la fouille de textes à la recommandation de lectures - Applications sur les plateformes d'Openedition.org
- C.E. Gonzalez-Gallardo, Éric San Juan-Ibekwe (LIA Avignon), J.M. Torres Moreno
Extension des mesures textuelles d'informativité à l'évaluation de l'intérêt potentiel d'un passage
- Matthieu Quantin (LS2N Nantes), B. Hervy, F. Laroche
Extraction d’expressions et mise en réseau d'un corpus
Transparents
- Jeudi 4 mai, 16h-18h
- Rémi Bois (IRISA Rennes), G. Gravier, P. Sébillot, E. Morin
Construction automatique de graphes journalistiques navigables
- Cyrielle Montrichard (ELLIADD Besançon)
Construire un corpus à forte dimension socio-historique pour une analyse du discours : le cas de la presse de tranchées
- Carmen Brando (EHESS Paris), C. Dominguès
Représentations vectorielles de corpus collaboratifs sur la ville de Paris
Transparents
- Cécile Favre (ERIC Lyon), W. Jakawat, S. Loudcher
Jeux de cubes pour les graphes... Ou comment des graphes enrichis par des cubes (GreC) peuvent contribuer à l’analyse de données textuelles ?
Transparents
- Vendredi 5 mai, 12h-13h
- Isabelle Tellier (LaTTiCe Paris)
Bien choisir ses données d'apprentissage pour le TAL en contexte multi-hétérogène : l'exemple de l'ancien français
Transparents
- O. Goncharova-Orobinska, Jean-Hugues Chauchat (ERIC Lyon), N. Sharonova
Thésaurus pour la Sécurité Radiologique à partir d'un corpus de textes et d'outils linguistiques en ligne
Transparents
Journée Données environnementales
Lille, 2 décembre 2016
L'action ADOC du groupe de travail CNRS MaDICS vise à faire se rencontrer les scientifiques de différentes disciplines, dont les SHS et l'informatique. Dans ce cadre, nous avons organisé une journée sur les données environnementales, prises dans un sens très large : écologie, urbanisme, aménagement, habitat, environnement industriel et agricole... La journée a été consacrée aux différents aspects liés aux données : leur collecte, stockage, traitement, obtention de résultats et leur présentation. De même, différents types de données ont été au centre de l'intérêt : données des SHS et données hétérogènes, données linguistiques et non linguistiques, données simples et objets complexes, etc.
La journée a eu lieu à la MESHS de Lille le vendredi 2 décembre 2016, de 10h à 17h.
Programme
- 09h30 : Accueil
- 10h00 : Sofia Papastamkou, MESHS Lille - CNRS
Présentation de l'axe Humanités numériques de la MESHS
Transparents
- 10h10 : Elsa Negre, LAMSADE, Paris
Systèmes de recommandation et Données environnementales (gestion de crises, villes intelligentes...)
Transparents
- 10h50 : Pause café
- 11h10 : Aurélie Pelfrêne et Francis Douay, LGCgE-ISA, Lille
De l'acquisition de données environnementales et sociales à l'évaluation de l'exposition des jardiniers
Transparents
- 11h50 : Laurent Sparrow, SCALAB, Lille
Analyse et interprétation des signaux complexes en Sciences Cognitives : à l'interface des Sciences et Technologies et des SHS
- 12h30 : Pause déjeuner
- 13h30 : Éric Masson, TVES, Lille
Les données environnementales : formats, usages et défis numériques
Transparents
- 14h10 : Oriane Piquer-Louis, ELICO, Lyon
Travailler de manière qualitative sur de gros corpus de données : pistes de réflexion pour un travail interdisciplinaire
Transparents
- 14h50 : Mathieu Roche, CIRAD, Montpellier
Identification de dynamiques territoriales et migratoires par des méthodes de fouille de données
Transparents
- 15h30 : Pause café
- 15h40 : Marta Severo, Dicen-IDF, Paris et Luca Bruschi, Via Francigena
Itinéraires culturels et données environnementales : le cas de la Via Francigena
Transparents
- 16h20 : Isam Shahrour, LGCgE, Lille
La Smart City : la donnée au service de l'environnement et du citoyen
Transparents
- 17h00 : Conclusion et clôture de la journée
Journée Données patrimoniales
Toulouse, 23 juin 2016
Dans le cadre du GdR MaDICS, l'action ADOC se propose de mettre en relation des chercheurs et utilisateurs de données majoritairement textuelles en SHS avec des informaticiens, spécialisés en particulier sur le domaine de la gestion de données, de l'entreposage et de l’analyse en ligne (OLAP).
Depuis de nombreuses années, diverses disciplines des sciences humaines et sociales (SHS) produisent et mettent en valeur des corpus de documents variés et, pour certains, très volumineux. Au-delà de leur valorisation et de leur diffusion, diverses analyses (statistiques, de réseaux…) ouvrent de nombreuses perspectives scientifiques originales aux chercheurs en SHS. Les entrepôts de données et l’analyse en ligne, et notamment les entrepôts de données textuels et le textual-OLAP, sont susceptibles de répondre à ces besoins. L’objectif de cette action est de constituer un réseau pluridisciplinaire de laboratoires de SHS et d’informatique qui s’intéressent à cette problématique afin de partager données, verrous scientifiques, méthodologies et solutions.
Une première journée d'exposés et d'échanges a eu lieu sur la thématique "Données patrimoniales" à Toulouse le jeudi 23 Juin 2016.
Programme
- 08h30 : Accueil
- 09h10 : Ouverture de la journée
- Jérôme Darmont, Natalia Grabar et Olivier Teste
Présentation du GdR MaDICS et de l'Action ADOC
Transparents
- Michel Daydé, Directeur de l'Institut de Recherche en Informatique de Toulouse
L'IRIT et ses structures en lien avec les Big Data
- Véronique Fabre, Edyta Osuch et Pascal Gaillard, Directeur de la Maison des Sciences de l'Homme et de la Société de Toulouse
La MSHS-T et le TGiR Huma-Num
- 10h00 : Session 1
Francesco Beretta, Laboratoire de Recherche Historique Rhône-Alpes, Lyon
Données patrimoniales et données historiques : enjeux et difficultés de l'interopérabilité
Transparents
- 11h00 : Pause
- 11h30 : Session 2
Anne Garcia-Fernandez, Laboratoire d'Anthropologie Sociale, Paris
Données patrimoniales en anthropologie : exemples issus du Laboratoire d'anthropologie sociale
- 12h30 : Repas (buffet)
- 14h00 : Session 3
Eric Kergosien, Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication, Lille
Le projet TECTONIQ pour la valorisation du patrimoine numérique de l’industrie textile : application au territoire du Nord–Pas-de-Calais
Transparents
- 15h00 : Session 4
Michel Feugère, Laboratoire Archéologie et Archéométrie, Lyon
Artefacts, des objets anciens au projet numérique
Transparents
- 16h00 : Pause
- 16h30 : Session 5
Florence Sèdes, Institut de Recherche en Informatique de Toulouse
Experimental Restaurant of the Future - Towards Intelligent Social Interaction Detection
Transparents
- 17h30 : Fin de la journée