Statistically Improbable Phrases

Statistically Improbable Phrases
Page d'aide sur l'homonymie Pour les articles homonymes, voir SIP.

Les Statistically Improbable Phrases (de l'anglais signifiant littéralement « groupes de mots ou syntagmes statistiquement improbables »), couramment abrégées sous le sigle SIPs, sont un outil statistique lancé en 2005 par le site web de commerce en ligne Amazon.com pour son programme d'indexation de contenu de livres Search Inside! ; il consiste à comparer le texte de tous les livres indexés, dans le but de trouver pour chacun d'eux un ensemble de syntagmes ou d'expressions qui apparaissent plus souvent que dans les autres livres. L'intérêt d'identifier ces passages est qu'ils sont considérés comme les plus significatifs et les plus représentatifs du livre, constituant l'équivalent de résumés ou de mots clés, en ayant l'avantage d'être déterminés de manière automatisée[1].

Ces métadonnées sont présentées à l'internaute sur les fiches de chaque livre. Chaque SIP y est accompagnée d'un hyperlien qui permet, au visiteur qui le suit, de retrouver les autres livres ayant la même expression parmi leurs SIPs[2]. En effet, les ouvrages aux SIPs identiques abordent vraisemblablement les mêmes thèmes[3] et sont donc susceptibles d'intéresser aussi le visiteur. Bill Carr, vice-président exécutif pour les médias numériques chez Amazon, souligne que ce système de rapprochement met en avant des ouvrages qui seraient difficiles à trouver sans ça, car faisant partie de la longue traîne du catalogue[4].

L'algorithme utilisé n'est pas rendu public[5]. Il semble néanmoins que les SIPs de chaque livre soient redéfinies à mesure que de nouveaux livres sont ajoutés à la base[6].

L'utilité de cette fonctionnalité auprès des visiteurs n'est pas connue avec certitude[7]. Benjamin Vershbow, chercheur à l'Institute for the Future of the Book, y voit un équivalent automatisé des tags qui sont à la base du Web 2.0, mais estime que le système fonctionne mieux pour les travaux de non-fiction que pour les romans[4].

Amazon envisage diverses autres manières de mettre cet outil à profit, par exemple en l'intégrant dans le système de recommandation qui existe déjà, ou pour répondre à des questions en utilisant des textes faisant autorité dans le domaine[7].

Références

  1. (en) « What are Statistically Improbable Phrases? », sur Amazon.com. Consulté le 21 juillet 2008.
  2. (en) [PDF] William Cleland, Best Practices in Digital Asset Management for Electronic Texts in Academic Research Libraries, Graduate College of Bowling Green, août 2007, 68 p., p. 20.
  3. (en) Brian Lavoie, Lorcan Dempsey et Lynn Silipigni Connaway, « Making Data Work Harder », dans Library Journal, 15 janvier 2006 (ISSN 0363-0277) [texte intégral] .
  4. a et b (en) Ryan Singel|, « Judging a Book by Its Contents », sur Wired, 5 mai 2005. Consulté le 14 juillet 2009.
  5. (en) Mounir Errami, Zhaohui Sun, Angela C. George, Tara C. Long, Michael A. Skinner, Jonathan D. Wren et Harold R. Garner, « Identifying duplicate content using statistically improbable phrases », dans Bioinformatics, vol. 26, no 11, 2010, p. 1453-1457 (ISSN 1367-4803 et 1460-2059) [lien DOI] .
  6. (en) Heyward Ehrlich, « Poe in Cyberspace: A Complete Poe Library—Cyberspace Dream? », dans The Edgar Allan Poe Review, vol. VII, no 1, printemps 2006, p. 83–92 (ISSN 1051-743X) [texte intégral] .
  7. a et b (en) Steve Weber, Plug Your Book : Online Book Marketing for Authors, Weber Books, 2007 (ISBN 978-0-9772406-1-6), p. 128–129 .

Bibliographie

Voir aussi


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Statistically Improbable Phrases de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

  • Statistically Improbable Phrases — or SIPs constitute a system developed by Amazon.com to compare all of the books they index in the Search Inside! program and find phrases in each that are the most unlikely to be found in any other book indexed. [cite… …   Wikipedia

  • Phrases statistiquement improbables — Statistically Improbable Phrases Pour les articles homonymes, voir SIP. Les Statistically Improbable Phrases (de l anglais signifiant littéralement « phrases statistiquement improbables »), couramment abrégées sous le sigle SIPs, sont… …   Wikipédia en Français

  • SIPS — Statistically Improbable Phrases (Academic & Science » Libraries) * Side Impact Protection System (Governmental » Transportation) * Structural Insulated Panel System (Governmental » Military) * Simple Internet Publishing System (Community »… …   Abbreviations dictionary

  • Amazon.com — Amazon.com, Inc. Type Public Traded as NASDAQ: AMZN NASDAQ 100 Component …   Wikipedia

  • Googlewhack — A Googlewhack is a Google search query consisting of two words that returns a single result. Since 2003, British comedian Dave Gorman has toured Britain, France, Australia, Canada and the United States with a show entitled Dave Gorman s… …   Wikipedia

  • God is still speaking, — also known as The Stillspeaking Initiative , is the name of the identity, branding, and advertising campaign of the United Church of Christ that was launched in 2004.The Initiative was originally promulgated by the national office s Stillspeakin …   Wikipedia

  • SIP — The three letter abbreviation SIP can refer to the following: Business and Economics * Share Incentive Plan, a share plan for company employees * Systematic Investment Plan, an investment strategy. * Sales Incentive Plan * Student Insurance… …   Wikipedia

  • Woot — This article is about the company. For the slang term, see w00t. For other uses, see Woot (disambiguation). Woot, Inc. Type Subsidiary Industry Retail Founded 2004 …   Wikipedia

  • Internet Movie Database — IMDb redirects here. For the in memory database management system, see In memory database. Internet Movie Database (IMDb) IMDb homepage on February 20, 2011 …   Wikipedia

  • 1-Click — 1 Click, also called one click or one click buying, is the technique of allowing customers to make online purchases with a single click, with the payment information needed to complete the purchase already entered by the user previously. More… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”