Epistemon - Principes éditoriaux icone corpus Epistemon

Droits d'utilisation et de reproduction

Cette base textuelle est constituée de textes inédits ou de transcriptions originales, donnés dans leur intégralité, diffusés gratuitement et sous licence Creative Commons pour l'usage privé de la lecture et de la recherche. Ces textes patrimoniaux ont été transcrits par des universitaires, des étudiants ou des vacataires rattachés à des établissements publics, ou par des prestataires sous contrat : les droits de propriété et de reproduction des organismes qui en ont financé la saisie et la mise en forme sont protégés au même titre que ceux des bibliothèques qui ont autorisé la reproduction des originaux. Toute transmission, toute copie à visée commerciale ou autre est donc soumise à autorisation. Depuis 1998, les textes sont marqués par des "shibboleths" (terme maintenant adopté pour les systèmes d’identification), tatouages textuels permettant de reconnaître les contrefaçons et les utilisations non référencées.

Licence Creative Commons

> Voir la présentation scientifique des BVH : Equipe éditoriale

Principes de transcription

Ces publications en ligne ont pour objectif la large diffusion d'un état du texte reproduisant le plus exactement possible un exemplaire original, affiché en regard lorsqu’il est disponible. Il ne s'agit pas d'élaborer d’emblée des éditions critiques qui géreraient les différentes éditions d'un même texte et en fourniraient un apparat critique complet, mais d’en offrir une transcription que nous appelons « patrimoniale », située entre l’édition « diplomatique » intégrale (qui connaît une gamme variable de principes) et l’édition régularisée. En fonction des évolutions techniques survenues depuis 1995 (date de la première publication du corpus Rabelais à Nice), plusieurs niveaux de fidélité sont désormais accessibles et la base Epistemon présente actuellement une hétérogénéité que nous nous efforçons de réduire. Tous les états de transcription ont cependant en commun :

  • le respect de la mise en page et du lignage
  • l’absence d'adjonction d'alinéas, de guillemets, de tirets
  • l’absence d'intervention sur l'usage des majuscules
  • le respect des graphies (sauf ij/uv et les abréviations pour les transcriptions les plus anciennes) et de la ponctuation
  • les corrections de coquilles ou d’erreurs manifestes (signalées et désormais encodées en TEI) à l’aide d’une autre édition ou de probabilités graphiques

Dans les textes transcrits avant 2008 et publiés en html avant cette date, il était indispensable pour les traitements informatiques de procéder aux modifications suivantes, quand elles n'affectaient pas l'état de la langue :

  • dissimilation des i/j et u/v, sauf pour les mots latins, les u et les i surmontés d'un tréma
  • résolution des abréviations, y compris des tildes (õ > on ou om)
  • séparation des mots agglutinés (lon > l'on, la > l'a...)
  • agglutination des mots séparés (long temps > longtemps)
  • correction directe dans le texte des coquilles et erreurs, signalées en fichier séparé
  • transformation des lettres ornées en lettres ordinaires
  • suppression des titres courants
  • correction des erreurs de pagination, ajout d’une pagination factice
  • exclusion des marginalia

Depuis 2007, avec l'application progressive de l’encodage en XML-TEI P5), selon une application « TEI-Renaissance » (voir le Manuel d’encodage XML-TEI) il est désormais possible :

  • De respecter strictement les graphies, sans dissimiler ni désabréger, mais en affichant aussi la version régularisée grâce à la feuille de transformation
  • De traiter par l’encodage les problèmes de numérotation des pages
  • D’afficher les marginalia
  • D’interroger le corpus avec deux niveaux d’application:
    • XTF, système de gestion et d’interrogation des métadonnées et des bases tous formats (y compris les PDF traités par OCR), développé par l’Université de Berkeley. En revanche, le double affichage texte/image n’est pas encore résolu de façon satisfaisante, car il demande d’adapter la double structure (physique et logique) du document encodé.
    • PhiloLogic, logiciel d’interrogation des bases textuelles utilisant partiellement l’encodage TEI, développé par l’Université de Chicago (voir l’onglet Recherche par mots)

D’autres traitements utilisant l’encodage TEI complet sont en cours d’étude :

  • TXM : plateforme d’affichage et de traitement de données textuelles, développé par Serge Heiden (laboratoire ICAR, ENS Lyon)
  • Analog : outil d’annotation permettant de gérer la variation graphique (développé par Marie-Hélène Lay (Laboratoire FORELL, Université de Poitiers)
  • LgeRM : outil de lemmatisation développé par Gilles Souvay pour le moyen français (AtiLF, Nancy)
  • L’exploitation des entités nommées, dans le projet « ReNom », avec Denis Maurel (professeur d’informatique, LI de Tours)
Principes d’affichage
  • Violet : graphies originales et régularisées.
  • Rouge : incertitudes (indiquées au moyen d’un « [sic] ») et formes corrigées.
  • Vert : abréviations et formes développées.
  • Orange : formes restaurées.
  • Bleu : additions manuscrites.
  • Barré : suppressions manuscrites.
  • [...] : lacunes.
  • [unclear] : termes ou caractères difficilement lisibles.
  • [Main] : indique l'intervention d'une main manuscrite (identifiée ou non).
  • [var.] : variantes tirées d'un autre exemplaire
  • ou pour les ouvrages plus récents : Mot référence et Variante en note marginale.

 

Marie-Luce DEMONET et l’équipe BVH, 22 juillet 2011 (Mis à jour le 23 septembre 2015)
marie-luce.demonet@univ-tours.fr,
Contact, questions :
sandrine.breuil@univ-tours.fr