Projet CLAPI
Historique
L'ex-UMR 5612 GRIC a mis sur pied à la fin des années 1990 le projet « Corpus de Français Parlé en Interaction » dans le but de recenser les corpus constitués par les membres de l’équipe depuis la fondation de l’UMR. Ceci avait donné lieu à la réalisation de la base de données CLAPI 1 (cf. section 3. Traitement des corpus dans CLAPI).
L’ACI TTT a permis la conception et le développement d’une nouvelle version de la base CLAPI : CLAPI 2. Le développement en cours vise une amélioration substantielle de la base de données en termes de richesse, de robustesse, d’accessibilité et d’extraction.
L’application informatique CLAPI 2 devra ainsi permettre :
- la gestion d’un nombre important de corpus/unités documentaires (enregistrements, transcriptions, documents annexes…) ;
- l’interrogation par des requêtes fines portant sur les descripteurs et sur les transcriptions, éventuellement enrichies par des balises : recherche sur des chaînes de caractères, mais aussi sur la temporalité de phénomènes balisés.
- l’intégration de nouveaux corpus, internes ou constitués à l’extérieur de l’UMR ICAR (cf. Annexe Organigramme de corpus CLAPI) ;
- la consultation et le téléchargement de corpus gérés par des droits d’accès sécurisés.
Conception de CLAPI 2 : les descripteurs
CLAPI 1 comportait une liste de descripteurs dans le but de permettre la localisation des corpus, leur identification ainsi que celle de l’ensemble des personnes ayant participé à leurs constitutions.
Dans le cadre de l’ACI TTT, nous avons enrichi ce travail de description afin de caractériser plus précisément les corpus et leur contenu dans la perspective d’analyses des interactions.
NB : le choix de cette orientation interactionniste implique une description spécifique qui autorise toutefois des exploitations émanant de problématiques différentes (autres domaines de la linguistique, ethnologie, psychosociologie…).
La liste actuelle des descripteurs comporte 75 rubriques hiérarchisées (génériques ou spécifiques) couvrant les champs suivants (cf. Annexe Liste simplifiée des descripteurs) :
- Informations générales (nom du corpus, dates et lieux de recueil…)
- Auteurs (responsable, collecteurs, transcripteurs…)
- Enregistrements (nom, date et lieu de recueil, durée, audio/vidéo/traces informatiques…)
- Transcriptions (exhaustivité, convention, logiciels, alignement et balisage)
- Locuteurs (identifiant et caractérisation sociolinguistique)
- Genre interactionnel (nombre d’interactants, type d’interaction…)
- Exploitation (bibliographie)
- Condition de diffusion des enregistrements, transcriptions, …(sans limitation, dans le cadre de la signature d’une convention, non accessible).
Cette liste est provisoirement close pour la mise en ligne de la base mais nous avons prévu son évolution en fonction de l’émergence de nouveaux besoins.





