Thesaurus

Thesaurus

Thésaurus

Wiktprintable without text.svg

Voir « thésaurus » sur le Wiktionnaire.

Un thésaurus[1] est un type de langage documentaire qui consiste en une liste de termes constituant un vocabulaire normalisé sur un domaine de connaissances, reliés entre eux par des relations synonymiques, hiérarchiques et associatives. C'est une sorte de dictionnaire hiérarchisé ; cependant, un thésaurus ne fournit qu'accessoirement des définitions, les relations des termes et leur sélection l'emportant sur la description des significations.

Avec l'élaboration de normes et d'applications informatiques spécialisées, comme dans le domaine voisin des ontologies, une convergence des problématiques (ressources, hiérarchie, réutilisation, etc.) a rapproché les thésaurus des ontologies alors qu'ils demeurent avant tout complémentaires, ainsi que le souligne le langage SKOS (2007...).

Sommaire

Étymologie, orthographe et histoire

Thésaurus est un emprunt au grec ancien θησαυρός « trésor » via le latin thesaurus.

Il désignait au départ, à côté du mot trésor lui-même, un dictionnaire de langue ancienne à but philologique ou archéologique puis a désigné le thésaurus documentaire.

Les deux orthographes thesaurus et thésaurus sont admises par les dictionnaires : la première est un xénisme qui reprend directement la forme latine, la seconde en est une francisation et semble la plus fréquente dans la littérature. Le pluriel latin thesauri est quelquefois employé, mais passe pour une forme désuète ou un anglicisme (l'anglais employant le pluriel latin). La cohérence veut qu'on écrive soit un thesaurus, des thesauri, soit un thésaurus, des thésaurus.

Outil d'indexation et outil de recherche

Un thésaurus est un type particulier de langage documentaire. Il est constitué d'un ensemble structuré de termes pouvant être utilisé pour l'indexation de documents dans une banque de données bibliographiques ou dans un catalogue de centre de documentation. Deux types de termes composent un thésaurus :

  • les descripteurs utilisés pour indexer un document ;
  • les non-descripteurs qui ne peuvent pas être employés pour indexer un document, et qui renvoient au descripteur à utiliser. Ils sont utilisés à la recherche.

Pour l'utilisateur d'un catalogue électronique ou d'une base de données bibliographique, le thésaurus peut constituer un instrument de recherche. L'utilisateur peut formuler des requêtes en ayant recours à des descripteurs ou un non descripteur (dans ce cas le système le renvoie au descripteur), ce qui peut, dans une certaine mesure, limiter le bruit et le silence documentaire.

Constitution d'un thésaurus

Un thésaurus s'élabore de deux manières, soit manuellement par la voie d'une personne ou de plusieurs, grâce à une intelligence humaine, soit de manière automatique, par le biais de l'intelligence artificielle, grâce à des logiciels de construction automatique de thesaurus du type du SATO (logiciel) (Système d'analyse de textes par ordinateur). Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques. D'après G. Salton, Luhn[2] et Mooers furent les premiers à envisager le remplacement des indexeurs par la machine et de l'intelligence humaine par l'intelligence artificielle par exemple grâce à l'analyse de la fréquence des mots clefs (CRANFIELD II, SMART Information Retrieval System, pertinence, relevance), ce qui entraîna le courant de la génération automatique de thesaurus par exemple le NCI_Metathesaurus[3] grâce à des logiciels spécialisés tels chez I.B.M. THESAUT-TP (création automatique d’un thésaurus à partir de profils ou questions documentaires) qui est un logiciel de traitement linguistique d’aide à l’interrogation ou TLS (Thesaurus and Linguistic System) qui avec le programme THES, permet la création et la consultation de thésaurus pour enrichir une question[4],[5]. Elle est à relier alors à l'indexation automatique de documents. Il s'agit d'un vocabulaire contrôlé puisqu'il résulte d'un long processus de tri des mots, appellations et expressions utilisés de manière informelle dans un domaine particulier. Il s'agit d'une démarche pragmatique et continue de rationalisation des termes descriptifs. Il existe trois méthodes de constitution d'un thesaurus :

  • analytique (à priori) : à partir des mots clefs de l'indexation
  • synthétique (à posteriori) : à partir de listes de mots-clef préétablies à l'aide de dictionnaires, lexiques, glossaires etc...
  • mixte

Ces méthodes portent parfois d'autres noms, comme méthode « stalactitique » et « stalagmitique » (D. Sörgel)[6],[7],[8]. En vue de la meilleure adéquation au domaine considéré, les termes sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s'appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d'emploi. La hiérarchie des termes peut tout-à-fait être différente d'un thesaurus à un autre et même sous réserve d'incohérence dans un usage ou un autre du même thesaurus.

Finalement, en partant du niveau le plus haut et correspondant au domaine du thésaurus, on trouve d'abord les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommés microthesaurus[9], puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Dans le thesaurus à schémas fléchés (ex. Thesaurus du Management), il y a un découpage en champs sémantiques, chacun constitue une grille de 30 à 40 descripteurs définis par un mot clef titre placé au centre de la grille. Un thésaurus peut aussi concerner plusieurs domaines c'est le cas d'un macrothesaurus (ex thesaurus de l'OCDE)[10]. Un thesaurus sectoriel est spécialisé lui dans un seul domaine spécifique de la connaissance (ex. Thesaurus de la Formation).

Il demeure toujours une dimension arbitraire dans la hiérarchie d'un thésaurus, soit dans le choix des termes, soit dans leur position hiérarchique.

Il existe differentes normes[11] pour l'élaboration des thesaurus[12] :

  • Norme ISO 2788-1986 : Principes directeurs pour l'établissement et le développement des thésaurus monolingues.
  • Norme ISO 5964-1985 : Principes directeurs pour l'établissement et le développement des thésaurus multilingues.
  • SKOS : Spécification en langage RDF développé par le W3C, pour la publication et l'utilisation des thésaurus dans le cadre du Web sémantique
  • Normes anglaises : BS 8723 : 2005. structured vocabularies for information retrieval,adaptation anglaise de la norme ISO 2788.
  • Normes americaines : ANSI/NISO Z39-19-2003 [13]

Les normes doivent être modifiées entre 2008 et 2010[14].

Les relations entre les termes

Les termes d'un thésaurus sont organisés hiérarchiquement (à l'intérieur de microthesaurus souvent classés alphabétiquement). Cette hiérarchie permet de régler la précision de l'indexation ou de l'interrogation. L'indexation s'appuiera autant que possible sur l'identification des termes spécifiques (donc du niveau le plus bas possible), alors que la recherche selon les cas pourra faire appel aux termes génériques pour augmenter le nombre de réponses.

Les relations des termes sont de trois types :

  • relation hiérarchique stricto sensu (entre descripteurs), base de la hiérarchie du thésaurus ;
  • relation d'équivalence (entre descripteurs et non-descripteurs), base de l'univocité ;
  • relation d'association (entre descripteurs), enrichissement sémantique ; sujets connexes.

Tout thésaurus comporte au moins trois catégories de termes : les termes génériques et les termes spécifiques qui doivent être utilisés comme descripteurs ; les termes équivalents qui sont considérés comme non-descripteurs selon les conventions du thésaurus.

  • Les termes génériques sont repérés généralement par le sigle TG ; ils désignent les entités ou concepts principaux en référence aux autres termes et au domaine considéré ;
  • Les termes spécifiques sont repérés généralement par le sigle TS ; ils précisent et identifient les entités ou concepts particuliers à l'intérieur du champ sémantique d'un terme générique donné ;
  • Les termes équivalents sont repérés généralement par le sigle EP comme abréviation de Employé Pour ; ce sont des variantes des termes spécifiques (synonymie ou quasi-synonymie). Ils sont donc équivalents dans le langage courant, mais donnés pour subsidiaires dans l'emploi du thesaurus. Le terme à préférer au terme Employé Pour est indiqué par le symbole EM ou EMP comme abréviation de Employer.

On trouve aussi très généralement les termes associés identifiés par TA (relation d'association : causalité, localisation, relations de nature temporelle, composition, etc). Étant eux-mêmes des descripteurs, ces termes connexes permettent au chercheur de modifier progressivement son interrogation ou de l'élargir sans faire appel aux termes génériques.

Divers types de relations et rubriques complémentaires peuvent être adjoints à cette structure de base pour enrichir le thésaurus ou améliorer son usage. On peut notamment prévoir des équivalents linguistiques pour des thésaurus multilingues ainsi que des passerelles avec d'autres thésaurus du même domaine ou de domaines différents.

Exemple de thésaurus élémentaire

Soient les rubriques principales d'un micro-thesaurus sur un système informatique collaboratif :

  • Individus >
  • Logiciel >
  • Réseau >
  • Ressources >

La rubrique Individus se composerait par exemple de :

  • Lecteur (TG) ;
  • Participant (TG) ; Auteur (EP) ; Contributeur (EP) ;
    • Éditeur non-inscrit (TS)  ; Anonyme (EP) ; Adresse IP (forme métaphorique à éviter) ;
    • Éditeur inscrit (TS) ;
  • Participant mandaté (TG) ;
    • Administrateur (TS) ; Sysop (terme usuel dans la communauté)
    • Gestionnaire (TS) ;
    • Représentant (TS) (chargé des relations extérieures) ;
  • Utilisateur (terme imprécis : à proscrire) ; Internaute (imprécis : à proscrire).

Le responsable de toute contribution pourrait ainsi être spécifié par au moins un terme descriptif choisi parmi les cinq termes spécifiques (TS) ou parmi les trois termes génériques (TG), selon les besoins. Les termes (EP) seront par principe évités dans l'indexation, mais pourront être utilisés ultérieurement pour exploiter exclusivement tel ou tel type de contribution sans employer rigoureusement les termes propres de la description initiale.

Les modes de présentation

Quel que soit son support, un thésaurus utilise habituellement des présentations par classement alphabétique de ses termes ; premier stade avant la présentation des relations hiérarchiques. Ainsi, l'utilisateur peut-il être dérouté dans un premier temps par l'absence d'un terme dans une liste, alors qu'une autre modalité d'usage du thésaurus lui révèlera que ce terme est bien pris en compte mais par relation à un des termes privilégiés. Des présentations sous forme de graphes et cartes permettent des explorations plus complexes.

L'utilisation ou exploration d'un thésaurus peut se faire habituellement à l'aide de plusieurs modes de présentation :

  • Liste(s) alphabétique(s) des termes ; pour une approche globale ou la recherche d'un terme particulier ;
  • Liste(s) hiérarchique(s) des termes ; pour l'approfondissement d'une notion ;
  • Liste(s) d'occurrences (liste permutée) ; pour la vérification de la pertinence d'un élément d'une expression utilisée comme descripteur ;

On peut trouver dans ces listes le symbole 'MT indiquant le microthesaurus dont relève le terme.

Il existe plusieurs types de présentation[15] :

  • le thesaurus hiérarchique
  • le thesaurus à schémas fléchés, spécialité du Bureau Van Dijk, Belgique[16]

mais encore  :

  • Thesauri à arborescences,
  • Polygônes,
  • Cercles circulaire .....

Le thesaurus graphique continue à se développer grâce aux interface du web et de l'informatique[17]. Les systèmes gestion électronique de documents (GED) comportent tous un module thesaurus intégré.

Éléments optionnels d'un thésaurus

On trouve associées aux descripteurs, des définitions (cas d'homonymie), des notes assistant l'utilisateur (notices), des liens de toute nature, etc.

Notes et références

  1. Voir aussi Dokupedia http://fr.dokupedia.org/index.php/Les_langages_documentaires#Le_Th.C3.A9saurus et aussi http://fr.dokupedia.org/index.php/Th%C3%A9saurus
  2. Jacques Chaumier, La saga IBM de l’informatique documentaire. Quelques jalons. http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-2-page-135.htm
  3. http://ncimeta.nci.nih.gov/MetaServlet/
  4. The past thirty years in information retrieval, Journal of the American Society for Information Science Volume 38, Issue 5, Date: September 1987, Pages: 375-380 Gerard Salton sur le site de JASIST / Gerard Salton http://skr.nlm.nih.gov/papers/references/riao94.final.pdf Exploiting a Large Thesaurus for Information Retrieval
  5. http://www.ling.uqam.ca/sato/publications/bibliographie/Db92.htm
  6. Guide pratique pour l’élaboration d’un thésaurus documentaire Michèle Hudon, avec la collab. de Danièle Dégez et Dominique Ménillet, Thesaurus Construction and Use: A Practical Manual, Jean Aitchison, ADBS, F. W. Lancaster, Vocabulary control for information retrieval. Information Resources Press, Washington, 1972, Marie - Thérèse Laureilhe ; Le thésaurus, . Son rôle, sa structure et son élaboration.Lyon, Presses de lENSB, 1981
  7. Lire sur le net F.W. . Lancaster, Thesaurus construction and use : a condensed course ; 1985 http://unesdoc.unesco.org/images/0007/000703/070359eb.pdf
  8. voir aussi IFLA Guidelines for Multilingual Thesauri http://www.ifla.org.sg/VII/s29/pubs/Profrep115.pdf
  9. Sur la Base de données FRANTIQ, PACTOLS "Peuples et cultures, Anthroponymes, Chronologie relative, Toponymes, Oeuvres, Lieux, Sujets". un exemple de thesaurus formé d' un ensemble de microthesauri : http://frantiq.mom.fr/html/pactols/pactols.html
  10. Thesaurus de l'OCDE : http://168.96.200.17/ar/oecd-macroth/fr/index.htm
  11. http://www.enssib.fr/questions.../une-question-10905
  12. Lire : Langages documentaires et outils linguistiques. 2e partie. Normes, standards et interopérabilité, Les normes de conception, gestion et maintenance de thésaurus, Évolutions récentes et perspectives, Dominique Chichereau, Odile Contat, Danièle Dégez, Alina Deniau, Michèle Lénart, Claudine Masse, Dominique Ménillet, Documentaliste Sciences de l'Information, Volume 44 2007/1
  13. http://www.niso.org/standards/standard_detail.cfm?std_id=814
  14. cf :Support exposé à la réunion du TC46 / CN357 le 7 novembre 2008, à l'Afnor : NP 25964, Future norme sur les thésaurus http://www.slideshare.net/.../np-25964-future-norme-sur-les-thsaurus-presentation-737506
  15. Voir Alan GILCHRIST The thesaurus in retrieval. London. Aslib. 1971
  16. VAN SLYPE Georges Définition des caractéristiques essentielles des thesauri Bruxelles : Bureau Marcel van Dijk, 1976.
  17. Sylvie DALBIN, Documentaliste Sciences de l'Information, 2007, Vol 44, N°1 Thésaurus et informatique documentaires Partenaires de toujours? http://www.atd-doc.com/.../2007_dalbin_theso-informatique-n1_42-55.pdf

Annexes

Articles connexes

Liens externes

  • Catégorie Thésaurus de l’annuaire dmoz (version française)
  • Un Thésauro-annuaire est à la disposition de celles et ceux qui désirent s'exercer à l'indexation avec thésaurus. Y sont consignées les références de thésaurus francophones (quelquefois multilingues) et gratuits. Ces références sont indexées avec Eurovoc...
  • DRZE : thésaurus concernant l'éthique des sciences de la vie
  • Motbis: thésaurus concernant le domaine de l'éducation
  • Portail des sciences de l’information et des bibliothèques Portail des sciences de l’information et des bibliothèques
Ce document provient de « Th%C3%A9saurus ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Thesaurus de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

  • thésaurus — ou thesaurus [ tezɔrys ] n. m. • 1904; lat. thesaurus « trésor » ♦ Didact. 1 ♦ Recueil ou lexique de philologie ou d archéologie. 2 ♦ (mil. XXe; sous l infl. de l angl.) Doc., ling. Répertoire alphabétique de termes normalisés pour l analyse de… …   Encyclopédie Universelle

  • thesaurus — thésaurus ou thesaurus [ tezɔrys ] n. m. • 1904; lat. thesaurus « trésor » ♦ Didact. 1 ♦ Recueil ou lexique de philologie ou d archéologie. 2 ♦ (mil. XXe; sous l infl. de l angl.) Doc., ling. Répertoire alphabétique de termes normalisés pour l… …   Encyclopédie Universelle

  • THESAURUS — pecunia in futuros usus recondita a privatis, ita ut neque memoria exstet, neque dominum habeat, l. 1. ff. de acquir. rer. dom. sive, ut definit M. Aurelius Cassiodorus, l. 6. Ep. 8. Depositiva pecunia, quae longâ temporis vetustate competentes… …   Hofmann J. Lexicon universale

  • Thesaurus — Thesaurus, palabra latina para tesoro, puede referirse a: Tesauro, listado de palabras. Thesaurus Linguae Graecae, instituto de investigación estadounidense. Thesaurus Linguae Latinae, diccionario de latín. Esta página de desambiguación cataloga… …   Wikipedia Español

  • Thesaurus — Sm Schatzhaus, systematische Wortschatzsammlung per. Wortschatz fach. (19. Jh.) Entlehnung. Entlehnt aus l. thēsaurus, dieses aus gr. thēsaurós Vorrat, Schatz .    Ebenso ne. thesaurus, nfrz. thésaurer, nnorw. tesaurus; Tresor. lateinisch gr …   Etymologisches Wörterbuch der deutschen sprache

  • thesaurus — index treasury Burton s Legal Thesaurus. William C. Burton. 2006 …   Law dictionary

  • thesaurus — (n.) 1823, treasury, storehouse, from L. thesaurus treasury, treasure, from Gk. thesauros a treasure, treasury, storehouse, chest, from root of tithenai to put, to place. The meaning encyclopedia filled with information is from 1840, but existed… …   Etymology dictionary

  • thesaurus — A thesaurus (pronounced thǝ saw rǝs) is a dictionary organized to supply alternative words rather than to offer analytical explanations of what words mean. Because synonymy is such a complex phenomenon, most thesauruses can be, in their nature,… …   Modern English usage

  • Thesaurus — The*sau rus, n.; pl. {Thesauri}. [L. See {Treasure}.] A treasury or storehouse; hence, a repository, especially of knowledge; often applied to a comprehensive work, like a dictionary or cyclopedia. [1913 Webster] …   The Collaborative International Dictionary of English

  • Thesaurus — (v. gr.), 1) Schatz von Geld u. Kostbarkeiten; daher Thesaurarios, Schatzmeister, s. Argentarius 2); auch 2) bildlich eine große Menge, Überfluß, z.B. Th. meritorum s. supererogationis, in der Katholischen Kirche die überflüssigen guten Werke der …   Pierer's Universal-Lexikon

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”