L’historien, le texte et l’ordinateur
École normale de Lyon, 27-28 novembre 2006
Le second atelier est consacré aux développements des méthodes d’analyse du texte rendues possibles par l’informatique et, par voie de conséquence, aux exigences nouvelles que l’historien se doit désormais d’avoir en matière de présentation, de traitement, et d’interprétation du texte. C’est au début des années soixante - il y a donc plus de quarante ans - que les historiens ont commencé à s’intéresser à ces problèmes, en même temps qu’aux possibilités offertes par la statistique lexicale, dans le cadre des travaux réalisés à l’École Normale Supérieure de Saint-Cloud, dans le sillage de Robert-Léon Wagner et de Maurice Tournier. De son côté, Antoine Prost a été l’un des premiers historiens à réaliser le potentiel de ces méthodes. En Italie, c’est surtout au CNUCE à Pise que ces méthodes se sont développées grâce à Antonio Zampolli qui dès 1960 travaillait à Gallarate avec le Père Busa sur l’indexation de l’œuvre de Saint Thomas d’Aquin. Zampolli a ensuite joué un rôle déterminant dans la naissance du traitement automatique du langage, et dans celle du concept de ressources linguistiques. En France, des travaux importants ont ensuite été réalisés, notamment dans le domaine de l’histoire de la Révolution Française (J. Guilhaumou) et dans celui de l’histoire des mouvements syndicaux. Mais il semble que l’évolution méthodologique chez les historiens est ensuite allée dans une autre direction : alors que les politologues et les sociologues ont décidément adopté ces méthodes, les historiens, dont certains ont d’ailleurs préféré rejoindre des équipes de linguistes, n’ont guère progressé, si bien qu’ils ne sont plus totalement en phase aujourd’hui avec « l’état de l’art ». Les méthodes de lexicologie et de statistique lexicale sont en effet aujourd’hui intégrées pour nombre d’entre elles dans ce que l’on pourrait appeler la linguistique de corpus : mais il ne faudrait pas que certaines exigences apparues au fur et à mesure des nouvelles possibilités offertes par les machines, telles que le tagging, ou la lemmatisation, détournent les historiens de ces méthodes, alors même qu’il est maintenant infiniment plus facile de constituer des corpus riches et variés que ce n’était le cas quand l’informatique balbutiait.
Parallèlement, des recherches se sont développées dans un secteur que l’on pourrait qualifier de philologie numérique. Il ne s’agit pas tant des problèmes d’édition (qui ont fait l’objet de notre première rencontre à l’École Française de Rome) que de méthodes qui permettent de mieux comprendre et de mieux étudier les textes. Il en va ainsi de ces méthodes qui permettent de reconnaître les différentes parties du discours, pour les étudier et les comparer plus facilement. De même, le brouillon, la variante, le remords et la rature peuvent être pris en compte. La linguistique de corpus rejoint d’autre part des traitements spécifiques pour permettre une étude sémantique des textes en prenant en compte l’ensemble du vocabulaire. De multiples possibilités sont ainsi apparues, qui sont loin d’être toutes utilisées par les historiens, dont on attendrait plutôt qu’ils manifestent leurs besoins face aux textes.
Les communications doivent être très brèves, vingt à trente minutes, pour permettre d’amples discussions. Elles ne sont pas destinées à être publiées sur un support imprimé, mais à être diffusées sur internet, via Reti Medievali et Ménestrel. Des mini-tables rondes sur certains sujets permettront des débats et seront soutenues par de brèves contributions écrites des participants. Un rapport sera présenté par les organisateurs dans les Mélanges de l’École Française de Rome.
Programme de la journée : [ Télécharger PDF - 20 ko ]
Les communications de ces journées seront au fil des arrivées mises en ligne, mises à disposition. Pas d’ambition éditoriale, seulement le souci de communiquer, dans un délai raisonnable, les textes des intervenants afin de susciter la discussion.
La linguistique de corpus [lundi 27 novembre 2006]
Olivier FARON
Allocution de bienvenue.
Jean-Philippe GENET
Introduction
Christiane MARCELLO-NIZIA
L’apport de la linguistique de corpus aux analyses historiques : corpus, outils, problématiques
Philippe CIBOIS
Analyse de données textuelles et analyse de contenu : une perspective de sociologue
Adeline NAZARENKO
La fouille de textes est-elle utilisable pour l’historien ?
Jacques GUILHAUMOU
À propos du dictionnaire des usages socio-politiques
J.Cl. ZANCARINI
De l’hyperprince à l’hypermachiavel
Aude MAIREY
La construction d’un corpus (les prologues anglais et le vocabulaire de la connaissance) [ Télécharger PDF - 71.5 ko ]
Paolo MASTANDREA
Les archives de ’PoetriaNova’ et ’PoetidItalia’ comme outils pour une recherche historique
Isabelle DRAELANTS
Le corpus annoté sur les encyclopédies médiévales de l’Atelier Vincent de Beauvais
TABLE RONDE [modérateur, Monique GOULLET]
L’informatique et les métamorphoses du texte [matinée du mardi 28 novembre 2006]
Jean-Louis LEBRAVE
L’informatique, les brouillons et les variantes
Raul MORDENTI
Problemi di filologia digitale a partire dallo Zibaldone Laurenziano di Boccaccio
TABLE RONDE [modérateur, Jacques CHIFFOLEAU]
Nouveaux outils et nouvelles perspectives pour l’utilisation des corpus par les historiens
L’apport des traitements lexicographiques et lexicométriques [après-midi du mardi 28 novembre 2006]
Antonio DE PRISCO et Stefano MINOZZI
Metodi computazionali per l’indagine lessicale su testi latini medievali. Un’ applicazione al Codex Diplomaticus Cavensis
Pierre LAFON
Statistiques et lexicométrie : position des problèmes [ Télécharger PDF - 52 ko ]
Damon MAYAFFRE
L’apport de la lexicométrie à la compréhension historique des textes politiques [ Télécharger PowerPoint - 142.5 ko ]
TABLE RONDE [ modérateur, Alain DALLO] [ Télécharger PDF - 1.3 Mo ]
Les logiciels de traitement informatique du texte
Gianmaria VARANINI
Conclusion des travaux du colloque