Site Ménestrel

Médiévistes sur le net : sources, travaux et références en ligne

Home > Thematic repertory > French Languages and Literatures > Resources > Editions and textual databases > Corpus > Présentation

Corpus

  • Présentation

    NOTE : English translation is in progress 

    Anne ROCHEBOUET, Jean-Baptiste CAMPS, 15 février 2017

    Cette section comporte les bases qui n’ont pas pour but de donner à lire à l’internaute un texte particulier, mais de lui permettre d’effectuer des recherches systématiques (lexique, etc.) à l’intérieur d’un ensemble de textes.
    Outre des bases indépendantes, de nombreux dictionnaires sont associés à une base de textes, dont ils proposent la consultation en ligne. C’est notamment le cas du Dictionnaire Électronique de Chrétien de Troyes (DÉCT), du Dictionnaire du Moyen français (DMF), ou bien encore de l’Anglo-Norman Dictionary (AND).
    Ces bases sont ici présentées par grands ensembles dialectaux.


    Haut de page
  • Langue d’oïl

    NOTE : English translation is in progress 

    Anne ROCHEBOUET, Jean-Baptiste CAMPS, 1er février 2012

    Le domaine des corpus de langue d’oïl se distingue par un nombre élevé de projets universitaires en France et à l’international, fédérés pour une bonne partie d’entre eux autour du Consortium international pour les corpus de français médiéval. On notera également l’existence de ressources payantes, généralement accessibles par le biais des bibliothèques.

    1. Équipes et projets internationaux

    - Consortium international pour les corpus de français médiéval
    Créé en 2004 par les universités d’Ottawa, du Pays de Galles, de Stuttgart, de Zürich, l’ENS-LSH, l’ATILF, et l’École Nationale des Chartes, le Consortium international pour les corpus de français médiéval a pour objectif de « fédérer la communauté internationale des médiévistes ayant constitué des corpus de français médiéval ou les utilisant ». Lieu « de réflexion et d’échange autour de standards et de méthodologies de recherche communs », il comporte des groupes de travail consacrés à la question du codage des textes, à celle de leur catégorisation, à l’annotation syntaxique et à la description des textes.
    Le site fournit également un certain nombre de recommandations et propositions. Il est associé à une liste de diffusion.

    2. Projets universitaires

    - Base de français médiéval (BFM)
    Créée en 1989 et maintenue par le Laboratoire ICAR (UMR 5191 ENS LSH / CNRS), cette base comporte 26 textes intégraux d’ancien et de moyen français (liste complète), encodés en XML TEI avec en outre un étiquetage morpho-syntaxique ; elle couvre une aire géographique importante et une longue période temporelle, du IXe siècle (avec les Serments de Strasbourg) à la fin du XVe siècle. On ne peut pas parcourir les textes, mais uniquement les interroger, par le biais d’une interface Weblex, œuvre de Serge Heiden, permettant notamment la recherche de cooccurrences ainsi que diverses analyses statistiques. L’accès à la base nécessite une demande d’inscription (gratuite) et la signature d’une charte.

    - BFM manuscrits 
    Sous la responsabilité d’A. Lavrentiev, la BFM manuscrits vise à compléter la BFM par des transcriptions diplomatiques fragmentaires des manuscrits de base (ou imprimés anciens) des éditions utilisées dans la BFM, pour en tout 29 témoins (liste).
    Le but est de permettre « d’une part d’évaluer la fiabilité des éditions pour les différents types de recherches linguistiques et d’autre part d’utiliser la BFM pour des recherches précises nécessitant la prise en compte des traits fins de l’écriture manuscrite (abréviations, variantes de caractères, ponctuation et segmentations particulières) ».
    Les textes sont encodé en XML TEI, sous trois formes : normalisée, diplomatique et facsimilaire (échantillon visualisable). Disponible sur inscription, comme la précédente.

    - Base textuelle du Moyen Français
    Base qui accompagne le Dictionnaire de moyen français de l’ATILF.

    - Corpus représentatif des premiers textes français (CoRPTeF)
    Coordonné par C. Guillot et associé à la BFM, le projet ANR Corpus représentatif des premiers textes français (CoRPTeF) vise à la constitution d’un corpus de référence pour l’étude du « très ancien français » (du IXe à la fin du XIIe siècle), notamment dans la perspective de ses interactions avec le latin (présence de textes en latin tardif accompagnés de plusieurs traductions françaises).
    L’encodage retenu est le XML TEI, accompagné d’un étiquetage morphosyntaxique CATTEX2009.

    - Modéliser le changement : les voies du français
    Projet de recherche qui prend appui sur un corpus de textes dont font partie des textes médiévaux, mais pas uniquement (il va jusqu’au français classique). Il a « pour principal objectif de construire un corpus du français ancien, structuré et annoté morphosyntaxiquement, qui puisse permettre de retracer les changements majeurs qui sont à la source de notre français.
    Les utilisateurs ont accès à la documentation – liste des textes du corpus MCVF, manuels d’encodage, bibliographie sur des aspects théoriques – et à l’interrogation de corpus. »

    - Le Nouveau Corpus d’Amsterdam 
    Corpus issu de celui constitué par A. Dees, pour son Atlas des formes et des constructions des chartes françaises du 13e siècle, Tübingen, 1980, et son Atlas des formes linguistiques des textes littéraires de l’ancien français, Tübingen ; ce dernier a été repris et mis en ligne sous la direction d’Achim Stein.

    « “Original Version” : The Amsterdam Corpus of Old French Literary Texts was compiled at the beginning of the 1980s by a group of scholars directed by Anthonij Dees and resulted in the Atlas des formes linguistiques des textes littéraires de l’ancien français (1987). The electronic version of the texts was provided by Piet van Reenen (Free University of Amsterdam). It contains about 200 different texts, some of them in several versions, which adds to a total of almost 300 text samples with more than three million words (tokens).
    These forms had been manually annotated by Dees’ team with a set of 225 numeric tags encoding part of speech and other morphological categories (e.g. "566" for verb, futur tense, 3rd person, plural). Some of the texts are electronic versions of existing editions (e.g. the Miracles de Notre Dame de Chartres by Jean le Marchant, edited by P. Kunstmann, Chartres/Ottawa, 1973), others are transcriptions of manuscripts made especially for this corpus. The original texts were not lemmatized. They are nevertheless a precious resource which enabled us to extract a lexicon of more than 130.000 Old French inflected forms and to train the part of speech tagger.
    “Le Nouveau Corpus d’Amsterdam” (NCA) : The new version (v1) of the corpus edited (revised, lemmatized, XML-formatted) by Pierre Kunstmann and Achim Stein has been presented at the Lauterbad Workshop in February 2006. »

    Il est à noter que ce site propose également le corpus des Chartes de l’Aube.

    - Syntactic Reference Corpus of Medieval French - SRCMF 
    En cours de réalisation (2009-2011), le projet SRCMF se donne pour objectif l’annotation syntaxique des textes de la Base de Français Médiéval et du Nouveau Corpus d’Amsterdam. Il est financé par l’Agence nationale pour la recherche et la Deutsche Forschungsgemeinschaft et coordonné par Sophie Prévost pour la partie française et par Achim Stein pour la partie allemande.

    - Textes de français ancien (TFA) 
    Une des bases du Project for American and French Research on the Treasury of the French Language (ARTFL) de l’Université de Chicago et de l’ATILF, la base Textes de Français Ancien (TFA) a été établie sous la direction de Pierre Kunstmann, au Laboratoire de Français Ancien (LFA) de l’Université d’Ottawa, en collaboration avec Mark Olsen (Université de Chicago), qui héberge et gère les données sur le serveur de l’ARTFL.

    « Le fonds originel est constitué d’un certain nombre de textes des 12e et 13e siècles, qui ont été numérisés pour la préparation d’une base lemmatisée d’ancien français (projet en collaboration avec l’ancien Institut National de la Langue Française, devenu maintenant l’ATILF). À ce fonds se sont ajoutés des textes de moyen français (14e et 15e siècles). Le LFA enrichit régulièrement cette base textuelle. Nous en sommes à la deuxième mise à jour (janvier 2003) ; celle-ci consiste en l’addition de 23 documents nouveaux, soit un ensemble d’environ 1 051 363 occurrences de mots (environ, car de ce nombre il faudrait soustraire les balises). La base comporte donc maintenant un total d’environ 3 014 389 occurrences de mots. Ont été privilégiés, pour cette mise à jour, l’oeuvre de Chrétien de Troyes (on peut actuellement interroger le texte des 5 romans) et le cycle épique de Guillaume d’Orange (8 chansons sont ainsi consultables) ».

    3. Ressources commerciales (accès payant)

    - Classiques Garnier numériques

    Les classiques Garnier numériques proposent l’accès à deux bases textuelles concernant la période médiévale, à savoir le Corpus de la littérature médiévale des origines au 15e siècle et le Corpus de la littérature narrative du Moyen Âge au 20e siècle. Une troisième base, La Bibliothèque des Lettres contient également quelques textes médiévaux (Villon, Rutebeuf,...). Il est à noter qu’ils proposent également des ressources lexicographiques.


    Haut de page
  • Langue d’oc

    NOTE : English translation is in progress 

    Jean-Baptiste CAMPS, 12 mars 2017

    Le nombre de bases généralistes concernant la littérature d’oc est limité, mais l’ampleur somme toute restreinte du domaine de la littérature occitane médiévale, dont Clovis Brunel disait qu’il « n’est pas si vaste qu’il n’offre à qui l’aborde la satisfaction et la sûreté de pouvoir le reconnaître et le parcourir jusqu’au bout » (Bibliographie des manuscrits littéraires en ancien provençal, Paris,
    1935, p. ix), leur permet de viser à une certaine forme d’exhaustivité.

    - La Concordance de l’Occitan Médiéval (COM)
    Disponible uniquement sur CD-Rom.
    Vaste entreprise, dirigée par Peter T. Ricketts, de numérisation de l’ensemble de la littérature occitane médiévale, dont sont sortis les deux premiers volumes : la COM1, contenant l’ensemble de la lyrique des troubadours, et la COM2 y ajoutant les textes narratifs en vers. La COM3 doit contenir les textes en prose et une édition des chansonniers, et paraître au cours de l’année 2011. Le projet a toutefois connu certains délais, faute d’aucun soutien financier, et ses ambitions ont dû être légèrement réduites.
    Les textes ont été soit repris d’un certain nombre d’éditions anciennes, soit édités spécialement pour l’occasion (en l’absence d’édition ou quand celle-ci était inutilisable). La perspective est plutôt de fournir un instrument pour la lexicographie et l’étude de la métrique, mais la consultation de passages d’ampleur limitée des éditions est également possible.

    - Corpus des troubadours
    Dirigé par Vicenç Beltran i Pepió et Tomàs Martínez Romero (voir la liste complète des collaborateurs et du comité scientifique) , avec comme promoteurs l’Institut d’Estudis Catalans et l’Union Académique Internationale, le Corpus des troubadors est la poursuite du projet « lancé et dirigé par Ramón Aramon i Serra (en collaboration avec Aurelio Roncaglia, à partir de 1982), puis, plus récemment, par le Prof. Alberto Várvaro » :

    L’objectif initial du projet, en 1962, était donc d’offrir une édition fiable de l’ensemble de leur production qui se trouvait éparpillée dans des éditions individuelles, bien souvent d’accès difficile. Il s’est révélé que le niveau des études et des éditions disponibles à ce moment-là ne permettait pas d’atteindre cet objectif, c’est donc pour cette raison que fut créée la collection « Corpus des Troubadours » afin de mener à bien les études de base nécessaires et de les publier ensuite.

    Ce projet propose sur son site des éditions critiques de grande qualité, numérisées ou nativement numériques, accompagnées d’un apparat critique et de notes, d’une bibliographie, d’une présentation, d’une étude introductive, d’une traduction et de numérisations des manuscrits. On pourra se rapporter à la liste des auteurs et poèmes.

    - Repertorio informatizzato dell’antica letteratura trobadorica e occitana (Rialto)
    Coordonné par Costanzo Di Girolamo, ce répertoire, ou « bibliothèque numérique dynamique » a pour ambition « de rendre disponible sur le web le corpus complet de la littérature occitane médiévale dans des éditions critiques fiables ». Soutenu par le Ministère italien de l’éducation, de l’université et de la recherche et par plusieurs Universités (Bari, Florence, L’Aquila, Messine, Naples - Frédéric II, Padoue, Pise, Salerne, Turin et Venise - Ca’ Foscari), ce site regroupe des éditions nouvelles ou des éditions revues et corrigées.
    Il est également prévu que soit donnée une interprétation chantée des textes de troubadours dont la musique a été conservée.

    - Provençal Poetry Database
    Une des bases du projet ARTFL, contenant la transcription de 38 éditions (du XXe siècle) de troubadours des XIIe et XIIIe siècles (voir la bibliographie), implémentées sous Philologic, dans une perspective d’interrogation.


    Haut de page
  • Anglo-normand

    NOTE : English translation is in progress 

    Anne ROCHEBOUET, Jean-Baptiste CAMPS, 28 septembre 2011

    - Anglo-Norman Source Texts
    Sources de l’Anglo-norman dictionary (voir la section consacrée aux dictionnaires) de l’Aberystwyth University et la Swansea University, encodées en XML et disponibles en accès public. Au total 76 textes, que l’on peut parcourir ou interroger (expressions régulières permises). Ils sont issus de numérisations d’éditions papier. Deux sources, qui n’ont pas encore été encodées en XML, sont disponibles en sus au format pdf (nouvelle édition par W. Rothwell du Femina et le Tretiz de Walter de Bibbesworth).


    Haut de page

  • Notes et adresses des liens référencés



Notes et adresses des liens référencés

rss | Retrouvez Ménestrel sur Twitter | Retrouvez Ménestrel sur Facebook | Site Map | Latest articles | Private area | Legal info | About Ménestrel | ISSN : 2270-8928