Text Encoding Initiative

Text Encoding Initiative

La Text Encoding Initiative est un format XML. Le TEI Consortium est un consortium qui regroupe des acteurs de la recherche dans le but de normaliser le codage de toutes sortes de documents sous forme numérique en TEI. Ce projet a initialement démarré dans une approche SGML et a migré ensuite assez naturellement vers XML. Il ne s'agit pas d'une spécification (DTD ou Schéma) en soi mais plutôt d'un cadre (framework) pour en développer des particulières. Il a été défini comme "un système pour faciliter la création, l'échange, l'intégration de données textuelles informatisées"[1].

Sommaire

Le consortium

Le consortium TEI a été créé en 1987 par trois sociétés savantes :

À l'heure actuelle, le « TEI Consortium » est une institution sans but lucratif financée par ses membres :

une organisation modulaire

"[...] Proposer une seule DTD serait beaucoup trop inadapté à la diversité des pratiques. Le vocabulaire de la TEI est donc plus général et peut donner lieu à différentes DTD. Cependant les Recommandations restent proches d'une définition de DTD, pour toujours définir formellement les tags. Pour cela une organisation générale en modules combinables est utilisée : les Recommandations décrivent successivement des modules qui peuvent être combinés pour composer une DTD, et à l'intérieur desquels les tags peuvent être définis formellement avec les notations des DTD. [...] Les modules de la TEI sont organisés en trois niveaux :

  • une partie commune à toute DTD issue de la TEI : le "core tag set". Elle est censée contenir les tags nécessaires dans tous les cas de figure, et sur lesquels la plus grande homogénéité peut être atteinte. Il s'agit notamment des moyens de marquer la structure du texte jusqu'au paragraphe, du header, du marquage de la mise en valeur ("Highlighting" en général), citations, nombre / date / nom / abréviation, notes, etc...
  • Chaque DTD inclut ensuite un et un seul jeu de base ("base tag set") à choisir parmi huit possibilités ("Prose", "Verse", "Drama", "Speech", "Dictionaries", "Terminology", "General base", "Mixed"). Les deux derniers permettent d'avoir des combinaisons des 6 premiers.
  • Enfin on peut ajouter des modules additionnels librement combinables (corpora, critical apparatus, alignement, marquage de table et formules, encodage morphosyntaxique notamment).[...]"[2].

Il existe des générateurs de schémas TEI personnalisés : Roma

Un exemple introductif

Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille[3].

On cherche à représenter :

Acte II, Scène 2
DON RODRIGUE À moi, Comte, deux mots.
LE COMTE          Parle.
DON RODRIGUE                  Ôte-moi d'un doute.
Connais-tu bien Don Diègue ?
LE COMTE          Oui.
DON RODRIGUE                  Parlons bas, écoute.
Sais-tu que ce vieillard fut la même vertu,
La vaillance et l'honneur de son temps ? Le sais-tu ?

Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ».

 <h1>Acte II, Scène 2</h1>
 <br /> <b>DON RODRIGUE</b> À moi Comte, deux mots.
 <br /> <b>LE COMTE</b>&nbsp;&nbsp; ... &nbsp;Parle

Avec le schéma TEI, on obtiendrait ceci :

 <div type="Act" n="I"><head>Acte II</head>
   <div type="Scene" n="1"><head>Scène 2</head>
     <sp><speaker>Rodrigue</speaker>
         <l part="i">À moi, comte, deux mots.</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="m">Parle</l></sp>
     <sp><speaker>Rodrique</speaker>
         <l part="f">Ôte-moi d'un doute</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="i">Connais-tu bien Don Diègue ?</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="m">Oui</l></sp>
     <sp><speaker>Rodrigue</speaker>
       <l part="f">Parlons bas, écoute.</l>
       <l>Sais-tu que ce vieillard fut la même vertu,</l>
       <l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
    ...
   </div>
 ...
 </div>

La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). Cet exemple montre notamment :

  • l'imbrication des actes et des paragraphes (2 éléments <div> imbriqués) (avec un langage comme XPath, il est alors possible d'extraire un acte ou une scène) ;
  • le découpage du dialogue par des éléments <sp> ;
  • la définition des interlocuteurs par des éléments <speaker> (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène).
  • la précision de la description de la versification par des éléments <l> (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs part.

Notes

  1. Lou Burnard (2009) dans Le schéma XML TEI pour l’édition (cours) (7'32 minutes) à l' Université d’été de l’édition électronique ouverte.
  2. Sylvain Loiseau (2002), Introduction à la TEI, Texto, ISSN 1773-0120.
  3. Exemple issu de Jacques Ducloy, « L'édition scientifique en numérique - illustrée avec Hamlet et Le Cid en TEI », sur le site du projet Appropriation par la recherche des technologies de l'IST (ARTIST), 3 février 2006.

Voir aussi

Liens externes


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Text Encoding Initiative de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

  • Text Encoding Initiative — The Text Encoding Initiative (TEI) is a consortium of institutions and research projects which collectively maintains and develops a standard for the representation of texts in digital form. Originally sponsored by three scholarly societies, the… …   Wikipedia

  • Text Encoding Initiative — Die Text Encoding Initiative (TEI) ist eine 1987 gegründete Organisation (seit 2000 als TEI Konsortium organisiert) und ein gleichnamiges Dokumentenformat zur Kodierung und zum Austausch von Texten, das diese entwickelt hat und weiterentwickelt.… …   Deutsch Wikipedia

  • ODD (Text Encoding Initiative) — ODD stands for One Document Does it all . Part of the Text Encoding Initiative, it is an XML based format for writing human readable descriptions of XML files.[1][2] ODD allows its users to customize the P5 version of the TEI XML formats by… …   Wikipedia

  • Encoding — is the process of transforming information from one format into another. The opposite operation is called decoding. There are a number of more specific meanings that apply in certain contexts:*Encoding (in cognition) is a basic perceptual process …   Wikipedia

  • Text mining — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

  • Text Creation Partnership — The Text Creation Partnership (TCP) is a not for profit organization based in the library of the University of Michigan since 2000. Its purpose is to produce large scale full text electronic resources (especially in the humanities) on behalf of… …   Wikipedia

  • New Zealand Electronic Text Centre — The New Zealand Electronic Text Centre (NZETC) is a unit of the library at the Victoria University of Wellington which provides a free online archive of New Zealand and Pacific Islands texts and heritage materials. The NZETC has an ongoing… …   Wikipedia

  • Scholarly electronic text and image service — SETIS, the Scholarly Electronic Text and Image Service [http://setis.library.usyd.edu.au/] , was established by the University of Sydney Library [http://www.library.usyd.edu.au/] in 1996 as a digital library platform to support and facilitate… …   Wikipedia

  • Oxford Text Archive — (OTA) is an archive of electronic texts and other literary and language resources which have been created, collected and distributed for the purpose of research into literary and linguistic topics. The OTA was founded by Lou Burnard of Oxford… …   Wikipedia

  • Medieval Unicode Font Initiative — In digital typography, the Medieval Unicode Font Initiative (MUFI) is a project which aims to coordinate the encoding and display of special characters in medieval texts written in the Latin alphabet, which are not encoded as part of Unicode.… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”