Faculté des sciences

Robustesse des résultats d'une campagne d'évaluation : L'exemple de la piste ad hoc CLEF-2005

Savoy, Jacques

In: Actes 8e Journées Analyse statistique des Données Textuelles JADT 2006, 2006, p. 877-888

À l'aide de corpus écrits dans les langues française, portugaise (brésilienne), hongroise et bulgare, cet article analyse et compare l’efficacité du dépistage de onze stratégies d’indexation et de recherche. Nos analyses démontrent que les meilleures performances sont obtenues par les modèles probabilistes Okapi ou Prosit. Les mesures d'évaluation pénalisant plus fortement les... Plus

Ajouter à la liste personnelle
    Résumé
    À l'aide de corpus écrits dans les langues française, portugaise (brésilienne), hongroise et bulgare, cet article analyse et compare l’efficacité du dépistage de onze stratégies d’indexation et de recherche. Nos analyses démontrent que les meilleures performances sont obtenues par les modèles probabilistes Okapi ou Prosit. Les mesures d'évaluation pénalisant plus fortement les mauvaises réponses comme la moyenne géométrique, la médiane ou celle basée sur la précision obtenue après dix documents extraits redonnent un classement des modèles de dépistage très similaire à l'évaluation basée sur la mesure de performance officielle, soit la précision moyenne. Le classement des modèles de recherche selon leur précision moyenne, mesure de performance choisie par les campagnes d’évaluation comme CLEF 2005, se montre donc relativement fiable. Cependant, l’élimination de quelques requêtes bien sélectionnées peut modifier les premières positions d’un tel classement.
    Summary
    This paper evaluates and compares the retrieval effectiveness resulting from the application of eleven search models when searching into test-collections made available for the French, Portuguese (Brazilian), Hungarian and Bulgarian languages. Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi or Prosit probabilistic models. Be it the geometrical mean, the median or the precision after retrieving ten documents, those evaluation measures that greatly penalizing poor responses do not perform that differently from that used during official CLEF evaluation campaigns, namely the mean average precision. The ranking of the first positions may however be altered through the removal of a few well-selected queries.