Présentation scientifique

Aspects techniques

Partenariats
PRÉSENTATION SCIENTIFIQUE                                                                         

Présentation générale

Le programme des "Bibliothèques Virtuelles Humanistes" du CESR a été conçu en 2002 et mis en œuvre en 2003 avec la collaboration de l'IRHT (section de l'humanisme). Il constitue, avec l’élaboration des catalogues des "Incunables des bibliothèques de France", le volet recherche sur le livre ancien du CESR. Il se consacre particulièrement à la diffusion de fonds patrimoniaux grâce à des programmes de recherche associant des compétences en sciences humaines et en informatique.
Depuis 2008, il agrège plusieurs types de documents numériques :

Une sélection de fac-similés d’ouvrages de la Renaissance numérisés en Région Centre et dans les établissements partenaires
La base textuelle Epistemon, en cours de conversion en XML-TEI.
Des transcriptions ou analyses de minutes notariales ("de minute en minute") et des manuscrits.

Il a pour objectif de fournir un ensemble de 2000 ouvrages du XVe au XVIIe siècle provenant principalement des fonds patrimoniaux régionaux, avec l'espoir d'en proposer 10 à 20 % en mode texte, le reste étant accessible, en ligne et gratuitement, par une numérisation image de qualité. Après un travail d'inventaire des ressources régionales qui se poursuit encore afin d’établir une liste rationnelle des ouvrages prioritaires, la première campagne de numérisation a porté en 2005-2007 sur les documents présents dans les bibliothèques de Tours (CESR, fonds Brunot de la Bibliothèque universitaire, Bibliothèque Municipale). Le programme d’acquisition numérique se poursuit avec les autres partenaires après signature d'une convention: Orléans et Vendôme en 2008 (250 ouvrages), Châteauroux et Châteaudun en 2009 (60 ouvrages) Bourges et Blois en 2009-2010 (250). Le programme de recherche porte sur l'optimisation des données numériques (mode image et mode texte intégral), pour développer les logiciels de structuration de la page (AGORA) et de reconnaissance de caractères (RETRO), avec la collaboration du Laboratoire d’informatique de Tours et le consortium Navidomass (ANR). La base de données textuelles est associée aux fac-similés numériques structurés sur la nouvelle version du site (en développement). Des outils de gestion de plusieurs états du texte et de requête sur des formes graphiques très variables sont en cours d’étude.

Travaux en cours

Alimentation d’un entrepôt OAI pour les métadonnées indexation des ouvrages et du contenu, y compris des images (reconnaissance automatique des éléments graphiques) ;
Développement de l’OCR RETRO, veille technologique sur les OCR appliqués aux caractères anciens ;
Encodage des images et des textes selon un protocole commun élaboré à partir d’une application de la TEI et de la plate-forme de travail Millefeuille, avec la collaboration de Jean-Daniel Fekete (INRIA) ;
Indexation de toutes les illustrations automatiquement extraites des ouvrages par AGORA avec le thésaurus Iconclass ;
Constitution de bases iconographiques pour les portraits, les lettrines, le matériel typographique ;
Gestion de la variation graphique (pour les textes en français) : élaboration de l’outil Analog (avec Marie-Hélène Lay, Université de Poitiers) ;
Recherches sur l’ergonomie des liens automatiques texte-image et des requêtes combinées.

Equipe-projet

Responsable: Marie-Luce Demonet (professeur, CESR, IUF)
Responsable de la sélection, relations avec les bibliothèques, collation et notices : Toshinori Uetani (ingénieur de recherche CNRS, CESR), avec la collaboration de Rémi Jimenes (doctorant)
Collaborations scientifiques : Marie-Elisabeth Boutroue (IRHT), Marie-Hélène Lay (Université de Poitiers), Christine de Buzon (Université de Limoges), Pierre Martin (Université de Poitiers). Pour les Incunables et les Minutes : Pierre Aquilon (maître de conférences honoraire, CESR)
Aspects techniques : Sébastien Busson (ingénieur d’étude CNRS, CESR), avec la collaboration de Gilles Kagan (ingénieur de recherche, CNRS, IRHT)
Personnels affectés au programme (2008-2009) : Sandrine Breuil (gestion du projet), Nicole Dufournaud (encodage, manuel et formation TEI), Laetitia Bontemps (doctorante, encodage, OCR), Vanessa Lerolle (encodage), Alice Nué (indexation d’images, graphisme), Elise Kokx, Samia Bendifallah, Nina Koulikoff (indexation, correction); stagiaires de l'Indian Institute of Technology, Allahabad: Rachit Agrawal (OCR), Ajay Verma (workflow).

Marie-Luce Demonet, juillet 2009