Recherches plein texte

Recherches plein texte

Recherche plein texte

Page d'aide sur l'homonymie Pour les articles homonymes, voir Plein texte.

Dans la recherche textuelle, la recherche plein texte (appelée aussi recherche de texte libre) se réfère à une technique de recherche de document ou de base de données enregistrée par un ordinateur ; dans une recherche plein texte, le moteur de recherche examine tous les mots dans chaque document enregistré lorsqu'il essaye de faire correspondre les mots de recherche fournis par l'utilisateur. Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970. La plupart des sites Web et des programmes applicatifs (tels que les logiciels de traitement de texte) fournissent des fonctionnalités de recherche plein texte. Des moteurs de recherche dans le Web, comme AltaVista emploient des techniques de recherche plein texte, alors que d'autres n'indexent qu'une partie des pages Web examinées par son système d'indexation.[1]

L'approche la plus fréquente dans la recherche plein texte est de générer un index complet ou une concordance pour tous les documents pouvant être recherchés. Pour chaque mot (sauf les mots de stop qui sont trop fréquents pour être utiles) on fait une entrée qui liste la position exacte de chaque occurrence du mot dans la base de données de documents. Il est relativement simple de récupérer d'une telle liste tous les documents qui correspondent à une requête, sans avoir à scanner chaque document. Bien que pour des ensembles de très petits documents la recherche plein texte puisse être faite par scannage sériel, l'indexation est la méthode préférée pour presque toutes les recherches plein texte.

Sommaire

Le problème faux positif

Comme quiconque a effectué une recherche plein texte le reconnaîtra, la recherche plein texte est susceptible de récupérer beaucoup de documents qui ne sont pas pertinents par rapport à la question posée. De tels documents sont appelés faux positifs. La récupération de documents non pertinents est souvent provoquée par l' ambiguïté inhérente au langage naturel ; par exemple, le mot football peut se référer soit au soccer, au football américain, ou au football canadien, au football gaélique ou aux règles du football australien, etc., alors que la personne qui cherche est probablement intéressée dans un seul de ces sports. Un autre exemple, le mot avocat peut se référer soit au fruit, soit à la profession.

Compromis entre précision et retour

En raison des ambiguïtés du langage naturel, une recherche plein texte produit typiquement une liste de récupération qui a une faible précision : la plupart des items récupérés ne sont pas pertinents. La recherche avec un vocabulaire contrôlé résout ce problème en étiquetant les documents de telle manière que les ambiguïtés soient éliminées. Cependant, une recherche avec un vocabulaire contrôlé peut avoir un faible retour : elle peut omettre de récupérer des documents qui sont vraiment pertinents par rapport à la requête. En dépit de la présence de beaucoup de documents non pertinents dans une liste de récupération en recherche plein texte, une telle recherche peut être en mesure de retrouver un document qu'une recherche en vocabulaire contrôlé n'a pas réussi à récupérer.

Améliorer la performance de la recherche plein texte

Les insuffisances de la recherche plein texte ont été traitées de deux manières : en fournissant aux utilisateurs des outils qui leur permettent d'exprimer leurs requêtes plus précisément, et en développant de nouveaux algorithmes de recherche qui améliorent la précision des récupérations.

Outils de requête améliorés

  • Mots clés. On demande aux créateurs de documents (ou aux indexeurs formés) de fournir une liste de mots qui décrivent le sujet du texte, incluant des synonymes des mots qui décrivent ce sujet. les mots clés améliorent le retour, particulièrement lorsque la liste de mots clés inclut une mot de recherche qui n'est pas dans le document texte.
  • La recherche restreinte au champ. Des moteurs de recherche permettent aux utilisateurs de limiter les recherches plein texte à un champ particulier dans un enregistrement de données, comme "Titre" ou "Auteur."
  • Les requêtes booléennes. Les recherches qui utilisent des opérateurs booléens (par exemple, "encyclopédie" ET "en ligne" SAUF "Encarta") peuvent accroître considérablement la précision d'une recherche plein texte. L'opérateur ET dit, en effet, "Ne récupère un document que s'il contient chacun de ces termes." L'opérateur SAUF dit, en effet, "Ne récupère pas un document qui contient ce mot." Si la liste de récupération retourne trop peu de documents, l'opérateur OU peut être utilisé pour accroître les retours ; considérons, par exemple, "encyclopédie" ET "en ligne" OU "Internet" SAUF "Encarta". Cette recherche récupérera des documents sur les encyclopédies en ligne qui utilisent le terme "Internet" à la place de "en ligne."
  • Recherche d'expression. Une recherche d'expression ne récupère que les documents qui contiennent une expression spécifiée, comme "Wikipedia, l'encyclopédie libre."
  • Recherche de proximité. Une recherche d'expression qui ne récupère que les documents qui contiennent deux ou plus de mots qui sont séparés par un nombre spécifié de mots ; une recherche pour "Wikipedia" AVEC2 "libre" récupérerait seulement les documents dans lesquels les mots "Wikipedia" et "libre" apparaissent séparés de deux mots au plus.
  • Expression rationnelle. Une expression rationnelle emploie une syntaxe de requête complexe mais puissante qui peut être utilisée pour spécifier des conditions de recherche avec précision.

Algorithmes de recherche améliorés

Les avancées technologiques ont beaucoup amélioré les performances de la recherche plein texte. Par exemple, l'algorithme PageRank de Google fournit plus d'importance aux documents qui ont pointés, au travers de liens hypertextes, par un grand nombre d'autres pages Web. Cet algorithme améliore considérablement la perception de la précision de recherche par les utilisateurs, ce qui explique sa popularité chez les utilisateurs d'Internet. Voir moteur de recherche pour davantage d'exemples.

Notes

  1. En pratique, il peut être difficile de déterminer comment un moteur de recherche donné travaille. Les algorithmes de recherche employés par les services de recherche Web sont rarement divulgués de peur que des sociétés spécialisées dans le Web n'utilisent des techniques d'optimisation des moteurs de recherche pour améliorer leur importance dans les listes de récupération.

Voir aussi

  • Portail de l’informatique Portail de l’informatique
Ce document provient de « Recherche plein texte ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Recherches plein texte de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

  • Recherche plein texte — Pour les articles homonymes, voir Recherche (homonymie) et Plein texte. La recherche (en) plein texte (appelée aussi recherche en texte intégral[1] ou recherche de texte libre) est une technique de recherche textuelle dans un document… …   Wikipédia en Français

  • Recherches sur la nature et les causes de la richesse des nations — Richesse des nations Édition de Londres (1776) de la Richesse des nations Auteur Adam Smith Genre …   Wikipédia en Français

  • Texte massoretique — Massorah Un feuillet du codex d Alep, comprenant de nombreuses notes massorétiques marginales. La Massore ou Massorah (hébreu : מסורה, chaîne ou tradition) est un pr …   Wikipédia en Français

  • Texte massorétique — Massorah Un feuillet du codex d Alep, comprenant de nombreuses notes massorétiques marginales. La Massore ou Massorah (hébreu : מסורה, chaîne ou tradition) est un pr …   Wikipédia en Français

  • Agence de recherches privées — Détective Pour les articles homonymes, voir Détective (homonymie). Vidocq : fondateur, en 1833, du Bureau des Renseignements …   Wikipédia en Français

  • Agence privée de recherches — Détective Pour les articles homonymes, voir Détective (homonymie). Vidocq : fondateur, en 1833, du Bureau des Renseignements …   Wikipédia en Français

  • Agent de recherches — Détective Pour les articles homonymes, voir Détective (homonymie). Vidocq : fondateur, en 1833, du Bureau des Renseignements …   Wikipédia en Français

  • Agent de recherches privées — Détective Pour les articles homonymes, voir Détective (homonymie). Vidocq : fondateur, en 1833, du Bureau des Renseignements …   Wikipédia en Français

  • Meta-donnée — Métadonnée  Pour l’article homonyme, voir Métadonnée (audio).  Une métadonnée (mot composé du préfixe grec meta, indiquant l auto référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une… …   Wikipédia en Français

  • Metadata — Métadonnée  Pour l’article homonyme, voir Métadonnée (audio).  Une métadonnée (mot composé du préfixe grec meta, indiquant l auto référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”