Présentation

Recherche simple

Principes éditoriaux

Manuel TEI Renaissance

PhiloLogic

TXM


 Aide à l'utilisation de la recherche PhiloLogic

Aide à l'utilisation du formulaire de recherche PhiloLogic


PhiloLogic est un moteur de recherche plein texte, multi-formats, permettant de consulter des documents en ligne. Ses fonctions de recherche avancée et de tri offrent également la possibilité de générer des statistiques d'ordre littéraire et linguistique et de constituer des corpus.

Cette aide vous présentera les principales fonctionnalités du formulaire des Bibliothèques Virtuelles Humanistes.

Pour plus de renseignements concernant PhiloLogic veuillez consulter le site du projet ARTFL de l'université de Chicago ou celui de PhiloLogic.



Utilisation des expressions régulières

Attention, ces règles ne s'appliquent pas toutes à la section Recherche bibliographique et définition de corpus (voir plus bas pour cette section). Hormis pour celle-ci, elles valent pour tous les champs texte.

La recherche est insensible à la casse.
On ne peut pas rechercher les signes de ponctuation, à l'exception des apostrophes (à faire précéder d'un espace en recherche plein-texte, et sans espace dans la section Recherche bibliographique et définition de corpus).

Pour les caractères accentués, le caractère en majuscule vaut pour toutes ses déclinaisons diacritiques.
Par exemple : E correspondra à é ê è ë e, et É Ê È Ë E.
NB : Les esperluettes ont été remplacées par "et" dans les documents.

Pour un signe diacritique particulier :

  • accent grave = (\) barre oblique inverse
    (ex. a\ correspondra à à).
  • accent aigu = (/) barre oblique
    (ex. e/ correspondra à é).
  • circonflexe = (^)
    (ex. e^ correspondra à ê).
  • cédille = (,) virgule
    (ex. c, correspondra à ç).
  • umlaut/dieresis = (") guillemets
    (ex. u" correspondra à ü).
  • tilde = (~) tilde
    (ex. n~ correspondra à ñ).
  • Pour les ligatures :
    ae = æ
    oe = œ

Caractères spéciaux :

  • Point (.) => N'importe quel caractère
  • Astérisque (*) => zéro ou plusieurs
  • Point d'interrogation (?) => zéro ou un
  • Crochets ([]) => Description d'un ensemble

Opérateurs booléens :

  • Barre verticale (|) => OR (OU) (Alt-Majuscule-L pour les macs)
  • Espace => AND (ET)
  • Point d'exclamation (!) => NOT (SAUF)


1. Recherche bibliographique et définition de corpus

La recherche bibliographique permet de chercher un texte en fonction des données bibliographiques et métadonnées qui lui sont attachées dans le header du fichier TEI. La recherche sur les champs bibliographiques seuls permet d'accéder uniquement aux informations bibliographiques et donc à la liste d'œuvres correspondant à la recherche. Il est possible à partir de cette liste, de consulter la notice. On pourra également, grâce à cette fonctionnalité, créer un corpus ou un sous-corpus dans lequel on procédera à une recherche plus spécifique. Une option de tri permet de classer les résultats.

Recherche bibliographique

Chaque champ du formulaire correspond à un élément bibliographique de l'en-tête TEI. Les données bibliographiques peuvent décrire aussi bien l'édition électronique que le document primaire.

Bouton liste=> Ce bouton permet d'accéder à une liste fermée proposant tous les termes disponibles pour une recherche dans ce champ.

Pour les champs Titre et Auteur, la recherche doit correspondre exactement à ce qui figure dans la base donc "livre tiers" ne fonctionnera pas si la base contient "tiers livre". En revanche "tiers" ou "livre" suffiront. Les accents doivent eux aussi figurer dans la recherche, sauf si on utilise les majuscules (cf. plus haut pour les signes diacritiques).
Pour cette recherche on n'utilisera pas les mêmes opérateurs booléens que dans la recherche simple. L'espace ne vaut plus pour AND, il faut taper l'opérateur lui-même. De même pour OR et NOT.

A noter également pour le champ date, la possibilité de spécifier une période sous le format suivant : 1590-1600.


2. Recherche plein texte

La recherche de termes constitue la base des fonctionnalités de recherche de PhiloLogic. Sauf dans le cas d'une recherche bibliographique, ce champ est indispensable à la recherche. Il recherche dans les textes mais pas dans les notices.

Champ de recherche

boutn de recherche=> Recherche sur un ou plusieurs mots

bouton effacer=> Effacer tous les champs du formulaire

recherche par similarité

L'option recherche par similarité fournit une liste de mots alternatifs à ceux de la recherche avec, pour chacun, le nombre d'occurrences dans le corpus. Si cette option est sélectionnée, une première page de résultats permet à l'internaute de choisir dans les termes de cette liste, ceux qui seront pris en compte lors de la recherche. Cette option ne fonctionne que pour une recherche sur un seul terme d'au moins cinq lettres.

Un exemple de résultat pour une recherche sur le terme "voyage" :
Résultat similarité

Affichage des résultats

Par défaut les résultats s'affichent dans un contexte de 300 caractères. L'autre type d'affichage est le KWIC (pour KeyWord In Context). On peut à tout moment décider de modifier l'affichage sans avoir à relancer la recherche, en cliquant sur un lien en haut de la page. Les résultats de la recherche ne peuvent pas excéder 10 000 occurrences et 500 formes uniques.

affichage

La première option affiche le terme dans son contexte original dans la limite de 300 caractères.

Pour chaque page de résultat renvoyant sur le texte, il est possible de naviguer d'une partie à l'autre grâce à "section suivante" ou "section précédente".

Exemple d'affichage en contexte :

résultats

Un lien dans la page des résultats permet de basculer en affichage KWIC. Le KWIC affiche les termes ligne à ligne comme dans un concordancier.

Exemple d'affichage KWIC

Résultats KWIC

Une table de co-occurrences propose des statistiques de fréquence contextuelle des termes de la recherche.

Exemple de table de co-occurrences :

Table de co-occurences

Options de recherche

Par défaut la recherche en contexte est sélectionnée. Pour une recherche sur plusieurs termes, trois options supplémentaires permettent de spécifier leur proximité dans le texte.

contexte

Le premier champ permet de spécifier une proximité selon le nombre de mots. Le second champ spécifie le nombre de mots séparant les occurrences : x mots. La liste déroulante établit si les occurrences doivent être séparées exactement par ce nombre, ou si cette valeur est la valeur maximale.

On peut également préciser la proximité des mots recherchés en fonction du découpage structurel du texte : dans la même phrase ou dans le même paragraphe.


3. Limiter la recherche

Grâce aux balises TEI, on peut limiter la recherche, soit sur les données bibliographiques (cf. plus haut), soit sur les éléments de structure (div, head...).

A noter la possibilité d'utiliser des opérateurs booléens.

limiter la recherche

Tout comme pour la recherche bibliographique, la recherche sur les éléments de structure utilise les balises TEI et leurs attributs.

  • Genre : genre littéraire du texte ou d'une partie du texte.
  • Titres de section : titres des différentes sections du texte.


4. Options de tri et d'affichage

Les résultats peuvent être triés selon plusieurs critères :

  • Par fréquence d'occurrences décroissantes
  • Par fréquence d'occurrences croissantes
  • Par titre ou œuvres du corpus
  • Par période

tri

Associée à l'option période, la liste déroulante propose différents types de découpage du corpus (par année, décennie, quart de siècle, demi siècle, siècle).

Par défaut, les résultats sont affichés par œuvre. La case à cocher Afficher les fréquences de l'ensemble du corpus renvoie les fréquences globales du corpus sans distinguer les œuvres.