Faculté des sciences

Retrieval effectiveness study with Farsi language

Akasereh, Mitra ; Savoy, Jacques

In: Actes 9ème Conférence en Recherche d’Information et Applications CORIA’12, 2012, p. 25-40

Dans le but d’utiliser le persan comme langue de référence, et en utilisant une collection test de 166 774 documents et de 100 requêtes, cette étude évalue la performance des différents modèles de RI sur lesquels sont appliquées diverses stratégies d’indexation et de recherche. De plus, cette étude évalue l’impact de l’élimination de la liste des mots-outils lors de... Plus

Ajouter à la liste personnelle
    Résumé
    Dans le but d’utiliser le persan comme langue de référence, et en utilisant une collection test de 166 774 documents et de 100 requêtes, cette étude évalue la performance des différents modèles de RI sur lesquels sont appliquées diverses stratégies d’indexation et de recherche. De plus, cette étude évalue l’impact de l’élimination de la liste des mots-outils lors de l’indexation. Selon les résultats obtenus, le modèle DFR-I(ne)C2 est le plus performant. L’enracineur léger et l’enracineur pluriel améliorent la performance en comparaison à l’approche sans enracineur. Les stratégies d’indexation, comme tronc-4 et tronc-5 améliorent la performance, alors que les approches comme 3-grams et tronc-3 ont l’impact le plus négatif sur les résultats. Les résultats révèlent que l’élimination de la liste des mots-outils joue un rôle important dans l'amélioration de la performance. L'analyse requêtes par requêtes montre qu’il serait possible d’ajouter des règles supplémentaires aux enracineurs, pour éviter des résultats erronés.
    Summary
    Having Farsi as the underlying language and using a test collection of 166,774 documents and 100 topics, this experiment evaluates the retrieval effectiveness of different IR models while using a light and a plural stemmer as well as n-grams and trunc-n indexing strategies. Moreover the impact of stoplist removal is evaluated. According to the obtained results the DFR-I(ne)C2 model is the best performing one. The proposed light and plural stemmer improve the retrieval performance compare to non-stemming approach. Indexing strategies trunc-4 and trunc-5 have also a positive impact on the performance while 3-grams and trunc-3 have the most negative impact on the results. The results reveal that for Farsi stoplist removal plays an important role in improving the retrieval performance. A query-by-query analysis on the results shows that avoiding extreme results would be possible by adding extra controls and rules, according to Farsi morphology, to the stemming algorithms.