Robot d'indexation

Robot d'indexation
Page d'aide sur l'homonymie Pour les articles homonymes, voir Spider.

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.

Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.

Sommaire

Principes d'indexation

Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration récursive, les hyperliens créés à la demande sont introuvables par un robot. Cet ensemble de ressources inexploré est parfois appelé Web profond.

Un fichier d'exclusion (robots.txt) placé dans la racine d'un site Web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur Web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.

Deux caractéristiques du Web compliquent le travail du robot d'indexation : le volume de données et la bande passante. Les capacités de traitement et de stockage des ordinateurs ainsi que le nombre d'internautes ayant fortement progressé, cela lié au développement d'outils de maintenance de pages de type Web 2.0 permettant à n'importe qui de mettre facilement en ligne des contenus, le nombre et la complexité des pages et objets multimédia disponibles, et leur modification, s'est considérablement accru dans la première décennie du XXIe siècle. Le débit autorisé par la bande passante n'ayant pas connu une progression équivalente, le problème est de traiter un volume toujours croissant d'information avec un débit relativement limité. Les robots ont donc besoin de donner des priorités à leurs téléchargements.

Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants :

  • Un principe de sélection qui définit quelles pages télécharger.
  • Un principe de re-visite qui définit quand vérifier s'il y a des changements dans les pages.
  • Un principe de politesse qui définit comment éviter les surcharges de pages Web.
  • Un principe de parallélisation qui définit comment coordonner les robots d'indexations distribués.

Les robots du Web 3.0

Le Web 3.0 définit des technologies avancées et de nouveaux principes de recherche sur Internet qui devront s'appuyer en partie sur les normes du Web sémantique. Les robots du Web 3.0 exploiteront des méthodes d'indexation impliquant des associations personne-machine plus intelligentes que celles qui sont pratiquées aujourd'hui.

Le Web sémantique se distingue de la sémantique appliquée aux langues : tandis que la sémantique linguistique comprend les significations des mots composés ainsi que les relations entre tous les mots d'une langue, le Web sémantique ne représente que l'architecture des relations et des contenus présents sur le Web.

Robots

Robots libres

  • HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites Web pour une utilisation hors ligne. Il est distribué sous la licence GPL.
  • Open Search Server est un robot d'indexation de site Internet. Publié sous licence GPL, il s'appuie sur Lucene pour l'indexation.
  • Methabot, est un robot avec un système de configuration. Publié sous licence ISC.
  • Nutch est un robot de collecte écrit en Java et publié sous Licence Apache. Il peut être utilisé avec le projet Lucene de la fondation Apache.

Robots propriétaires

  • Googlebot de Google
  • Scooter de AltaVista
  • OptimalSearch_Bot de Optimal Search
  • MSNBot de MSN
  • Slurp de Yahoo!
  • KB Crawl de KB CRAWL SAS
  • OmniExplorer_Bot de OmniExplorer
  • TwengaBot de Twenga
  • ExaBot de Exalead
  • MooveOnBot de mooveon.net
  • gloObotBot de gloObot.com
  • VerticrawlBot de Verticrawl

Voir aussi

Articles connexes

Liens externes


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Robot d'indexation de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

  • Robot d indexation — Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les… …   Wikipédia en Français

  • robot d'indexation — ● loc. m. ►INTERNET►MOTREC robot logiciel spécialisé dans le parcours et l analyse des pages webs (et éventuellement d autres types de pages et documents à la structure voisine), afin de nourrir un moteur de recherche …   Dictionnaire d'informatique francophone

  • Indexation automatique — Pour les articles homonymes, voir Indexation. L’ indexation automatique est un domaine de l informatique et des Sciences de l information et des bibliothèques qui utilise des méthodes logicielles pour établir un index pour un ensemble de… …   Wikipédia en Français

  • Robot.txt — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… …   Wikipédia en Français

  • Robot IRC — Un robot IRC est un ensemble de scripts ou un programme indépendant permettant d utiliser les fonctions du protocole IRC de manière automatisée. De manière générale, un robot IRC est mis en place comme un programme à part, à partir d un hôte… …   Wikipédia en Français

  • Robots d'indexation — Robot d indexation Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour… …   Wikipédia en Français

  • Bot référenceur — Robot d indexation Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour… …   Wikipédia en Français

  • Crawler — Robot d indexation Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour… …   Wikipédia en Français

  • Indexer — Indexation Sommaire 1 En gestion documentaire 1.1 En bibliographie 1.2 Indexation automatique 1.3 Importance de l indexation des documents électroniques …   Wikipédia en Français

  • Indexé — Indexation Sommaire 1 En gestion documentaire 1.1 En bibliographie 1.2 Indexation automatique 1.3 Importance de l indexation des documents électroniques …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”