Présentation

La plate-forme 

La plate-forme ORFEO (Outils et Ressources sur le Français Ecrit et Oral)  propose un ensemble unique de textes écrits et de transcriptions d’enregistrements en français contemporain ainsi que des outils pour les exploiter. Tout utilisateur est le bienvenu, que ce soit dans le cadre de la recherche en linguistique, en traitement automatique des langues, pour l’enseignement du français ou pour  simplement satisfaire sa curiosité à propos du fonctionnement du français contemporain : emploi d’un mot , d’une expression ou d’une forme grammaticale (fréquence, contexte, exemples à l’écrit ou à l’oral, …). 

Les partenaires

ORFEO est le résultat d’un projet (ANR 12-CORP-0005) financé par l’Agence Nationale de la Recherche  dans le cadre de la campagne Corpus, Données et Outils de la Recherche en Sciences Humaines et Sociales 2011. Le projet est le résultat de la collaboration de 7 laboratoires :

Le LATTICE (UMR 8094) www.lattice.cnrs.fr/ Porteur du projet. Unité Mixte de Recherche sous la triple tutelle du CNRS, de l’Ecole Normale Supérieure et de l’Université Paris 3 Sorbonne nouvelle,

MODYCO (UMR 7114) www.modyco.fr/ Unité Mixte de Recherche du CNRS et de l’Université Paris Ouest Nanterre,

L’ATILF (UMR 7118) www.atilf.fr/ Unité Mixte de Recherche du CNRS et de l’Université de Lorraine,

Le LIF (UMR 6166)  www.lif.univ-mrs.fr Unité Mixte de Recherche du CNRS et de l’Université d’Aix Marseille (AMU), et en particulier l´équipe Traitement Automatique du Langage Écrit et Parlé (TALEP),

Le LORIA, (UMR 7503)  www.loria.fr/, Unité Mixte de Recherche commune au CNRS, à l’INPL, à l’INRIA, à l’UHP et à l’Université de Lorraine,

CLLE-ERSS www.erss.univ-tlse2.fr, une des deux composantes de l’UMR 5263, CLLE (Cognition, Langue, Langages, Ergonomie),

ICAR, (UMR 5191), icar.univ-lyon2.fr/ Unité Mixte de Recherche sous la triple tutelle du CNRS, de l’Université Lumière Lyon 2,  et de ENS de Lyon, IFE.

Les ressources

Le Corpus d’Etude pour le Français Contemporain (C.E.F.C.)  comporte 10 millions de mots :

Un corpus Oral de 4 millions de mots constitué à partir de 14 corpus sources contenant les transcriptions alignées texte/parole. Le corpus rassemble sur un seul site et sous un seul format des données enregistrées dont la transcription a été soigneusement vérifiée. Il s’agit d’enregistrements récents de locuteurs adultes relevant de  situations de parole diverses : conversation, interaction avec des services, prise de parole, réunion, etc. Le C.E.F.C. comporte plus de 2000 locuteurs différents provenant de l’ensemble des régions de France ainsi que de Suisse et de Belgique.

Un corpus écrit de 6 millions de mots constitué à partir de 6 corpus sources de textes extraits de la littérature, de la presse quotidienne ou régionale, de textes scientifiques et d’écrits non professionnels (SMS, Blog).

L’ensemble (textes écrits et transcriptions) a été annoté semi-automatiquement en lemme, catégorie grammaticale (nom, verbe, adjectif, etc.) et fonction syntaxique. Les enregistrements audio sont alignés avec le texte au niveau du mot et du phonème. Plusieurs formats sonores sont proposés selon la qualité et le temps de téléchargement. L’ensemble des  données est en accès libre et téléchargeable.

La ressource peut être exploitée en ligne au moyen des outils inclus dans la plate-forme ou être téléchargée pour traitement par des outils personnels. Des guides exposant les principes de segmentation et d’annotation accompagnent la ressource.

Les outils

Deux outils d’exploitation sont disponibles pour deux types de recherche :

  • Une « recherche simple » dans les corpus par concordancier à partir d’une chaîne de caractères (mot ou expression). La requête peut porter sur un corpus spécifique, sur l’ensemble des corpus, sur une sélection de données à partir des métadonnées en fonction du type de medium (écrit, oral) ou du type de texte (presse ou littérature, conversation ou monologue). Pour l’oral, il est possible d’ajouter des critères de provenance géographique, d’âge ou de nombre d’intervenants.
  • Une « recherche avancée » (logiciel Annis) qui peut porter sur :
  • Le  lemme (toutes les formes variables d’un mot)
  • La catégorie grammaticale (nom, verbe, adjectif, etc.)
  • La fonction syntaxique (complément, sujet, etc.)