Le programme des "Bibliothèques Virtuelles Humanistes" du CESR a été conçu en 2002 avec la collaboration de l'IRHT (section de l'humanisme). Il constitue, avec l'informatisation des Catalogues régionaux des incunables et l’élaboration de la base "De minute en minute" le volet recherche sur le document ancien du CESR. Il diffuse des fonds documents patrimoniaux et poursuit des recherches associant des compétences en sciences humaines et en informatique.
Depuis 2008, il agrège plusieurs types de documents numériques :
Une sélection de fac-similés d’ouvrages de la Renaissance numérisés en Région Centre et dans les établissements partenaires
La base textuelle Epistemon, qui offre des transcriptions en XML-TEI
Des transcriptions ou analyses de minutes notariales et des manuscrits.
Il a pour objectif de fournir un ensemble de 2000 fac-similés d’ouvrages du XVe au XVIIe siècle provenant principalement des fonds patrimoniaux régionaux, avec l'espoir d'en proposer 10 à 20 % en mode texte, le reste étant accessible, en ligne et gratuitement, par une numérisation image de qualité.
Historique
Après un travail d'inventaire des ressources régionales qui a permis d’établir une liste rationnelle des ouvrages prioritaires, la première campagne de numérisation a porté en 2005-2007 sur les documents présents dans les bibliothèques de Tours (CESR, fonds Brunot de la Bibliothèque universitaire, Bibliothèque Municipale). Le programme d’acquisition numérique s'est poursuivi avec les autres partenaires après signature d'une convention : Orléans et Vendôme en 2008 (250 ouvrages), Châteauroux et Châteaudun en 2009 (60 ouvrages), Blois en 2010 (90 ouvrages). Bourges est prévu pour 2012.
Le programme de recherche porte sur l'optimisation des données numériques (mode image et mode texte intégral), pour utiliser les logiciels de structuration de la page (AGORA, déjà opérationnel) et de reconnaissance de caractères (RETRO, en cours de développement) du Laboratoire d’informatique de Tours et le consortium Navidomass (ANR 2006-2010). La base de données textuelles Epistemon est associée aux fac-similés numériques, lorsque nous en disposons, et gérée par XTF (plateforme développée par l'Université de Berkeley). L'affichage combiné texte et image, page à page, est en cours de développement.
Travaux en cours
Alimentation d’entrepôts OAI pour les métadonnées (moissonnage par Gallica et Europeana) ;
Développement de l’OCR RETRO appliqué à la typographie ancienne ;
Encodage des images et des textes selon le protocole "TEI-Renaissance", application des schémas proposés par le consortium TEI ;
Indexation de toutes les illustrations automatiquement extraites des ouvrages par AGORA avec le thésaurus Iconclass ;
Constitution de bases iconographiques pour les portraits, les lettrines, le matériel typographique ;
Co-développement de l’outil Edit-Tei, progiciel de pré-encodage en XML/TEI et de correction orthographique, et de sa version web, Franscriptor ;
Co-développement des outils de désabréviation et de dissimilation automatiques (avec Edit-Tei et Dissimilog) ;
Élaboration et adaptation des différentes feuilles de transformation pour les options d’affichage ;
Recherches sur l’ergonomie des liens automatiques texte-image et des requêtes combinées ;
Adaptation du logiciel de traitement de données textuelles Philologic (avec Mark Olsen, Université de Chicago) pour la base Epistemon ;
Gestion de la variation graphique (pour les textes en français) : élaboration de l’outil Analog (avec Marie-Hélène Lay, Université de Poitiers) et extension des requêtes à partir des formes modernisées (bourse Google 2010) ;
Responsable : Marie-Luce Demonet (professeur, CESR, IUF) marie-luce.demonet@univ-tours.fr
Édition, notices et bibliographie
Toshinori UETANI (Ingénieur de recherche, CNRS)
Rémi JIMENES (CESR, doctorant allocataire)
Marie-Elisabeth BOUTROUE (Chargée de recherche, CNRS, IRHT)
Gestion de projet
Sandrine BREUIL (CESR, ingénieur d'étude)
Encodage, traitement de données, indexation
Laetitia BONTEMPS (CESR, ingénieur d'étude, doctorante, PRCE IUT de Blois à compter du 01/09/2011 : encodage, rétroconversion des catalogues des incunables, modèles TEI)
Lauranne BERTRAND (CESR, ingénieur d’étude : encodage, publication sous XTF)
Jorge FINS (CESR, ingénieur d’étude : données textuelles, PhiloLogic)
Enrico CIMA (CESR, ingénieur d’étude : bases de données, projet « Minutes », rétroconversion des catalogues des incunables)
Alice NUÉ (CESR, responsable cellule édition : indexation Iconclass)
Réalisation technique
Sébastien BUSSON (Ingénieur d'étude CNRS, CESR, Service Image Multimédia), avec la collaboration de Gilles Kagan (ingénieur de recherche, CNRS, IRHT)
Hélène FAUQUET (Technicienne CNRS, CESR, Numérisation - Traitement Images)
Jean-Louis BOUTEILLER (CESR, assistant-ingénieur, informatique)
Rachid AGRAWAL et Adja VERMA (stagiaires 2009, Indian Institute of Information and Technology, Allahabad)
Vidya NAND et Rahul MITTAL (stagiaires 2010, Indian Institute of Information and Technology, Allahabad)
Les étudiants de Polytech’ Tours (projet 2010). Jérémy Herrant, élève-ingénieur, Laboratoire d’Informatique de Tours.
Collaborations scientifiques
Christine BÉNÉVENT (MCF, CESR)
Christine de BUZON (MCF, HDR, Université de Limoges)
Nicole DUFOURNAUD (ingénieur de recherche, EHESS)
Stéphan GEONGET (MCF, CESR, IUF)
Marie-Hélène LAY (MCF, Université de Poitiers)
Pour les incunables et les minutes : Pierre AQUILON (MCF honoraire, CESR)
Marie-Luce Demonet, 22 juillet 2011