Faculté des sciences

Recherche bilingue et multilingue d’information. Vers une sélection des bonnes traductions

Savoy, Jacques ; Berger, Pierre-Yves

In: Actes de la 1ère Conférence en Recherche d’Information et Applications CORIA’04, 2004, p. 271-286

Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo-nibles gratuitement sur le Web. En comparant l’efficacité du dépistage entre les requêtes traduites manuellement ou... Plus

Ajouter à la liste personnelle
    Résumé
    Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo-nibles gratuitement sur le Web. En comparant l’efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s’avère moins bonne que l’être humain. Toutefois, cette première conclusion se base sur une moyenne et une analyse plus détaillée indique une forte variabilité, dans le dépistage de l’information, entre les performances des différentes traductions produites par la machine. La question qui se pose est de savoir si l’on peut prédire la performance d’une requête traduite afin de sélectionner seulement la meilleure ou les meilleures traductions. Afin de résoudre ce problème, nous avons conçu un système de prédiction basé sur la régression logistique et capable de prédire les meilleures traductions. L’évaluation de notre approche s’avère supé-rieure au meilleur système de traduction automatique.
    Summary
    In order to search within corpora written in two or more languages, the simplest and most effective approach is to translate the submitted request into the required lan-guage(s). To achieve this goal, we based our IR model on translation tools freely available on the Web. When comparing the retrieval effectiveness of manually and automatically translated requests, we found that human-based translation outperformed machine-based approaches. However, when we analyzed the query-by-query performance, we found query performances based on machine-based translations to vary a great deal. The question that then arises is whether or not we can predict the retrieval performance of a translated query and as a result we may thus select only the best translation(s). To respond to this, we designed and evaluated a predictive system based on the logistic regression, and used it to select the top most appropriate machine-based translations. An evaluation of this approach shows retrieval performance is better than using the best machine-based translation.