Résumé
Cette communication présente les principaux problèmes liés à la recherche d’information dans la blogosphère. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Les raisons expliquant les faibles performances sont exposées. Basés sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter). Imposer la présence côte à côte de deux mots recherchés dans la réponse fournie permet d’accroître significativement la performance obtenue.
Mots-clés
- blogosphère
- domaine spécifique
- évaluation
- modèle probabiliste
- TREC
Abstract
This paper describes the main retrieval problems when facing blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. We analyze the hard topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter’s stemmer). Taking account of the presence of two search words in the retrieved documents may significantly improve the retrieval performance.
Keywords
- blogs
- domain-specific IR
- evaluation
- probabilistic model
- TREC
Mots-clés éditeurs : domaine spécifique, blogosphère, évaluation, modèle probabiliste, TREC
Date de mise en ligne : 01/02/2009