Présentation

L'équipe des Bibliothèques Virtuelles Humanistes prépare la publication en TEI d'un ensemble de transcriptions issues de documents manuscrits des XVe et XVIe siècles, afin d'effectuer des recherches avancées, avec un standard interopérable. Cette procédure facilite la régularisation des noms propres et des dates, ou de mots-clés. Selon le principe même de l'encodage en XML-TEI, l'utilisateur pourra lui-même récupérer, puis enrichir, annoter les données, et développer un apparat critique. Les transcriptions patrimoniales intégrales seront accessibles aux linguistes pour l'histoire de la langue française.

Ce programme concerne :
Les manuscrits littéraires : voir les Manuscrits du XVIe siècle

Les documents d'archives transcrits pour différents projets de chercheurs :
- Livres de comptes
- les comptes du château d'Amboise
- les comptes de Marguerite de Navarre du « fonds Frotté » (privé)
- les comptes de Romorantin
- les comptes de l'entrée de Louis XII à Bourges (1506)
- Autres documents
- Testaments (Béroalde de Verville, Archives Départementales d’Indre-et-Loire)
- Archives concernant Ronsard et sa famille (Archives Départementales d’Indre-et-Loire)
- Lettres, suppliques (Rabelais, Montaigne, BnF, Bibliothèque Vaticane)

La base d'archives notariales (Archives Municipales de Tours, Archives Départementales d'Indre-et-Loire), qui constitue la base « de Minute en Minute », est jusqu'à présent interrogeable en ligne de façon simple en recherche plein texte. Un programme de publication intégrale des 4500 documents d'archives notariales du XVe siècle (avec le mode image) a été entrepris en 2010 avec les Archives Départementales d'Indre-et-Loire.


L'interrogation de ces corpus s’effectuera par le moteur de recherche du site (XTF).


La base est en cours de structuration en XML-TEI à partir d'un schéma compatible entre les normes archivistiques et l'encodage standardisé, quel que soit le niveau de la transcription (résumé, analyse, transcription partielle ou complète), dans le cadre d'un partenariat avec l'IRHT et le Centre de Ressources Numériques TELMA (TGE Adonis).


Le partenariat de TELMA et de BVH-Tipo pour les actes notariés (2010-2011)


Les objectifs du projet - création d'un corpus de transcriptions et analyses d'actes notariés et constitution d'un laboratoire de réflexion sur le traitement et l'encodage de cette typologie de documents - ajoutés à la volonté de sauvegarder et rendre disponible en ligne le résultat de travaux importants sur ces textes, s'inscrivent très précisément dans le cadre d'action des BVH et de TELMA.


Le CRN TELMA a proposé une mutualisation de compétences, mise en œuvre en décembre 2010 : les BVH s'occupant du schéma et du fichier type de normalisation, TELMA du développement de l'outil de production. La compétence informatique de TELMA a permis une réalisation très rapide et efficace du logiciel professionnel d'encodage. Celui-ci se présente sous forme d'application en ligne, qui propose, notamment :

- une gestion précise des droits d'accès des administrateurs et des utilisateurs
- la journalisation des activités
- un moteur de recherche
- la présentation des unités documentaires (liasses équivalentes aux fichiers TEI) et des actes un par un, sous forme de tableau
- l'import de la base de données des minutes, encodée en TEI, l'export en TEI des fichiers édités et nouvellement créés.


La saisie des métadonnées, transcriptions et analyses associées aux liasses et aux minutes se fait par l'intermédiaire d'un formulaire très structuré et modulable, pour accueillir les informations nécessaires, tout en restant très lisible et facile d'accès. Les champs concernant les métadonnées sont clairs et pertinents, et un outil de contrôle vérifie la présence des informations obligatoires lors de l'enregistrement. Pour les analyses et transcriptions, une série de boutons donne la possibilité d'insérer des balises TEI pour encoder le texte saisi.


L'équipe des BVH devra effectuer un long travail de reprise de l'existant. Cette normalisation sera accompagnée d'un manuel de production (consignes d'encodage) à l'usage des collaborateurs futurs et des chercheurs intéressés par cet outil pour leurs propres projets. Le fait qu'il s'agisse d'un balisage mixte (un contenu textuel offrant un balisage sémantique, avec parfois des imbrications sur plusieurs niveaux) présente toutefois des limites : le champ de formulaire prévu pour la saisie d'une transcription ne peut pas proposer des sous-champs qui correspondraient à un balisage fin.


La récupération de la base de données existante et sa transformation en TEI ont déjà été effectuées. L'outil de production, mis à la disposition d'intervenants de divers horizons, sera très utile pour l'identification des documents et la saisie de métadonnées ; il permettra la saisie des transcriptions, des analyses et de notes sur la transcription, et un balisage de base.



Enrico Cima, Lauranne Bertrand, Marie-Luce Demonet, 22 juillet 2011