Aspects techniques

Présentation

Piloté par le Centre d'Études Supérieures de la Renaissance (Université François-Rabelais de Tours - UMR 7323 du CNRS) et avec la collaboration de l’Institut de Recherche et d’Histoire des Textes (CNRS, section de l'humanisme), le projet des Bibliothèques Virtuelles Humanistes consiste dans la numérisation et la diffusion sur Internet d’ouvrages imprimés de la Renaissance (1299 ouvrages en ligne —sur plus de 700 numérisés— soit 168026 pages numérisées, 21589 éléments d’ornement) consultables à l’aide d’un moteur de recherche. L’objectif est de proposer à l’internaute la visualisation d’ouvrages en mode image de bonne qualité et leur transcription en mode texte. Les difficultés rencontrées lors de la reconnaissance optique de caractères sur des livres d’une telle période pour obtenir un mode texte nous ont conduits à solliciter l’équipe RFAI du Laboratoire d'Informatique de l’Université de Tours, afin de créer un outil d’analyse et d’extraction de la structure des pages. Le logiciel Agora, développé initialement pour extraire les blocs de texte à envoyer à l’OCR, a ouvert de nouvelles possibilités exploitables en ligne, qui sont autant de fonctionnalités supplémentaires.

Mise en œuvre technique

Le service photographique et informatique a mis en œuvre depuis 1999 une chaîne complète de traitement dans le cadre de la numérisation, l’indexation, la gestion et la diffusion des fonds photographiques du CESR. Les Bibliothèques Virtuelles Humanistes s’inscrivent logiquement dans la continuité de cette évolution technologique. Afin de concrétiser ce projet, le service a mis en place en 2004 un second serveur web pour héberger ce site, avec un espace de stockage suffisant (1,5 To) pour permettre la diffusion de 15 000 ouvrages en mode image. Afin de procéder à une numérisation de qualité sur du matériel spécifique adapté à la manipulation du livre ancien, un scanner de type Digibook Suprascan 10 000 RGB (I2S) a été installé en 2005. L’expérience du service dans la programmation en Active Server Page (ASP) sur SGBD a conduit logiquement à créer un site web dynamique. Il se compose d’une vingtaine de pages ASP interrogeant quatre bases de données pour proposer en ligne l’ensemble des fonctionnalités de consultation quelque soit le nombre d’ouvrages diffusés.



Chaîne de production

Une fois les ouvrages sélectionnés et après contrôle des possibilités de numérisation sans altération de ceux-ci, un suivi de la chaîne de production est mis en œuvre afin de contrôler toutes les étapes de traitement jusqu’au retour des documents à l’établissement détenteur. La numérisation est effectuée en mode 120° sur une balance porte-livres sans vitre afin d’éviter toute détérioration de la reliure et de limiter la courbure du document, avec un éclairage non destructif (pas d’éclairage sur le livre en dehors de la phase de numérisation, éclairage de faible puissance, sans dégagement de chaleur). L’acquisition numérique se fait sur caméra linéaire RVB de 10 000 pixels, avec un contrôle logiciel en temps réel de la production. Pour chaque document le service photographique numérise l’ensemble de l’ouvrage du plat supérieur au plat inférieur (y compris les contre-gardes et gardes) en mode page à page, à une cadence moyenne de cent pages à l’heure. Les fichiers numériques sont générés au format jpeg sans compression, en mode RVB, renommés (logiciel ACDSee 8), identifiés et incrémentés dans l’ordre de l’ouvrage de la manière suivante : Code.Institut_Num.inventaire_incrément(4 digits).jpg. Ils sont ensuite archivés en deux exemplaires sur cédérom gold et sur disques durs, stockés en deux lieux délocalisés. Les supports de conservation sont identifiés et incrémentés dans l’ordre d’archivage de la manière suivante : Code.Institut_Num.inventaire_NumCDRom(2 digits). Le suivi de l’ensemble des archives numériques ainsi constitué est géré à l’aide d’une base de données permettant de savoir pour chaque support : la date de gravure, le contenu et toutes les données techniques relatives à la numérisation (matériel d’acquisition, résolution, mode, format…) Les étapes suivantes vont concerner d’une part l’ensemble des traitements nécessaires à la diffusion des images sur Internet en fonction des différents outils proposés et d’autre part les traitements plus spécifiques en analyse d’images (AGORA, RETRO…). Tout comme pour les cédéroms, chaque phase de traitement est suivie et contrôlée via une base de données, permettant ainsi de savoir à tout instant où en est le traitement d’un ouvrage.

A partir des fichiers numériques au format jpeg vont être produits à l’aide du logiciel photoshop CS, en traitement par lots, des fichiers numériques au format jpeg d’une largeur de 400 à 700 pixels en fonction du format de l’ouvrage pour la consultation en mode page à page sur Internet, ainsi que des fichiers jpeg de 100 pixels pour constituer des vignettes.
Un fichier Acrobat pdf en mode binaire est créé à partir des bruts de scan, avec le logiciel Bookrestorer, pour le téléchargement de l’ouvrage et impression.
Pour les ouvrages de grand format, un système de zoom en ligne a été mis en œuvre. Avec le composant Zoomifyer EZ v3.0, une pyramide de tuiles jpeg est créée à partir du fichier numérique d’origine.

Dès lors, une fois la notice bibliographique réalisée ainsi que le sommaire, l’ouvrage peut être mis en ligne et consultable avec le minimum de fonctionnalités.


Responsable technique du projet
S. Busson (Ingénieur d’Études CNRS, CESR)
22 juillet 2011
sebastien.busson@univ-tours.fr