Couverture de DN_111

Article de revue

Stratégies de recherche dans la blogosphère

Pages 109 à 132

Français

Résumé

Cette communication présente les principaux problèmes liés à la recherche d’information dans la blogosphère. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Les raisons expliquant les faibles performances sont exposées. Basés sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter). Imposer la présence côte à côte de deux mots recherchés dans la réponse fournie permet d’accroître significativement la performance obtenue.

Mots-clés

  • blogosphère
  • domaine spécifique
  • évaluation
  • modèle probabiliste
  • TREC
English

Abstract

This paper describes the main retrieval problems when facing blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. We analyze the hard topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter’s stemmer). Taking account of the presence of two search words in the retrieved documents may significantly improve the retrieval performance.

Keywords

  • blogs
  • domain-specific IR
  • evaluation
  • probabilistic model
  • TREC

Mots-clés éditeurs : domaine spécifique, blogosphère, évaluation, modèle probabiliste, TREC

Date de mise en ligne : 01/02/2009

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.14.80

Accès institutions

Rechercher

Toutes les institutions