ReNOM Renaissance : indexation et recherche d'information sur les entités nommées

Vous pouvez suivre l’actualité du projet en vous inscrivant via le site renom.univ-tours.fr
Pour aller plus loin : Télécharger la plaquette de présentation du projet ReNom


  • Porteur du projet : Denis Maurel (professeur d’informatique, Université de Tours, LI)
  • Partenaires scientifiques : LI-Laboratoire d’informatique de Tours, CESR-BVH, LLL (Laboratoire Ligérien de Linguistique, Orléans-Tours)

Projet sélectionné par la Région Centre en juillet 2011.

Les Bibliothèques Virtuelles Humanistes (BVH) du Centre d'Études Supérieures de la Renaissance rendent accessibles en ligne des ouvrages de la Renaissance, sous la forme d’un fac-similé numérique (image de la page) et d’un texte lorsque celui-ci est transcrit. Le projet ReNom vise à permettre une meilleure exploitation de ces documents par une recherche des entités nommées (principalement les noms de personnes et les noms de lieu) et par leur indexation, souvent absente des éditions.

Deux difficultés majeures se présentent : les variations graphiques de ces noms et la recherche automatique d'un nom sous la forme d'une "image" à l'intérieur de pages qui sont elles-mêmes des images. Comme un grand nombre de ces textes font partie du patrimoine du Centre, les exemples les plus célèbres étant sans doute les œuvres de Rabelais et de Ronsard, le projet s'inscrit dans la thématique "tourisme" de la Région Centre grâce à un partenariat avec les sociétés Supersoniks et Digiscrib, et la collaboration des musées et monuments de la région.

Un grand nombre de ces textes transcrits ou numérisés par les BVH font partie du patrimoine régional (les exemples les plus célèbres étant Rabelais et Ronsard). Le projet ReNom vise à permettre une meilleure exploitation de ce patrimoine en fournissant à l’internaute des outils pour naviguer à partir des noms de personne ou de lieu, et en l’invitant à compléter sa consultation par une visite de la Touraine (par exemple le musée de La Devinière s’il s'agit de Rabelais, mais aussi de châteaux qu’il mentionne). Il sera même possible de « localiser » Thélème (qui n’a jamais existé) en fonction des données fournies par le texte.

Concrètement, le projet ReNom effectuera une recherche des entités nommées et des informations principales qu’il est possible d’extraire localement sur ces entités (qui sont ces personnes ou personnages ? où sont situés ces lieux ?). Il sera centré sur le corpus rabelaisien pour le mode texte, et sur les Œuvres de Ronsard en mode image.

Depuis plusieurs années, le Traitement Automatique des Langues (TAL) s'intéresse aux entités nommées, mais le projet ReNom s’affronte à deux nouveaux verrous par rapport à l'existant :

  1. Les textes transcrits (ceux de Rabelais) sont des textes en français de la Renaissance et les graphies (on ne peut même pas parler d’orthographe) des mots n'étant pas stabilisées, plusieurs variantes sont possibles pour un même mot. Il faudra les rassembler sous une même entrée d'index.
  2. Les textes scannés, mais non transcrits (les Œuvres de Ronsard dans l’édition de 1623) sont des images de page et les entités à reconnaître sont elles aussi des images qui sont donc à localiser à l'intérieur d'une image… Il ne s'agit plus de TAL, mais de problématiques de reconnaissance et de traitement des images. Les méthodes de « word spotting » récemment proposées par différentes équipes de recherche du domaine devront être adaptées pour supporter les spécificités des ouvrages imprimés de la Renaissance.

Marie-Luce Demonet, Denis Maurel, 22 juillet 2011