Faculté des sciences

Recherche d'information plurilingue

Abdou, Samir ; Savoy, Jacques (Dir.)

Thèse de doctorat : Université de Neuchâtel, 2007 ; Th.1972.

Dans cette thèse, nous présentons nos investigations en recherche d’information selon deux contextes. Premièrement, nous nous sommes intéressés à l’aspect plurilingue de la Toile en abordant le développement de moteurs de recherche pour des langues présentant des caractéristiques visuelles, morphologiques et syntaxiques très différentes des langues indo-européennes. Plus... Plus

Ajouter à la liste personnelle
    Résumé
    Dans cette thèse, nous présentons nos investigations en recherche d’information selon deux contextes. Premièrement, nous nous sommes intéressés à l’aspect plurilingue de la Toile en abordant le développement de moteurs de recherche pour des langues présentant des caractéristiques visuelles, morphologiques et syntaxiques très différentes des langues indo-européennes. Plus précisément, nous avons proposé des stratégies de recherche pour les langues chinoise (traditionnelle), japonaise et coréenne, ainsi que pour la langue anglaise à des fins de comparaison. A cet effet, nous avons utilisé des corpus de dépêches d’agences représentant en général un contexte proche de la réalité du Web puisque la consultation de nouvelles constitue l’une des raisons importantes de la navigation sur Internet. Nous avons réalisé cette partie du travail avec le but de fournir la meilleure qualité de recherche possible pour chacune de ces langues. Plus concrètement, nous avons comparé divers modèles de recherche ainsi que diverses stratégies d’indexation. Nous avons également proposé une nouvelle approche de pseudo-rétroaction permettant d’améliorer significativement la performance de nos moteurs de recherche. Ces expériences nous ont ainsi permis de démontrer qu’une qualité de recherche optimale ne peut être obtenue qu’en considérant les particularités de chacune de ces langues. Deuxièmement, nous avons abordé le développement de moteurs de recherche dans le contexte spécifique de la biomédecine. A cet effet, nous avons utilisé un corpus de notices bibliographiques rédigées en anglais et issues du domaine biomédical (un tiers du corpus MEDLINE). En adaptant nos stratégies développées pour la langue anglaise, nous avons d’abord comparé divers modèles de recherche. Ensuite, nous avons évalué l’impact des descripteurs manuellement attribués sur la qualité de la recherche. Enfin, une comparaison de notre approche de pseudorétroaction avec celle de Rocchio a été réalisée. Dans ce contexte, ces expériences ont démontré que l’indexation manuelle permet d’améliorer très nettement la performance, et ce quel que soit le modèle de recherche. L’évaluation de la rétroaction a donné des résultats contradictoires. Tandis que l’approche de Rocchio a sérieusement détérioré la performance du système, notre stratégie de pseudo-rétroaction a permis de l’améliorer. Finalement, nous avons porté un regard critique sur quelques facettes liées à l’évaluation en recherche d’information. Nous avons comparé diverses métriques permettant d’évaluer divers critères de la qualité de recherche. Nous avons réalisé cette expérience sur deux applications, à savoir le classement des modèles de recherche et la pseudo-rétroaction selon Rocchio. Ces évaluations ont permis d’identifier quelques circonstances dans lesquelles nos diverses approches de recherche pourraient rencontrer des difficultés. Nous avons ainsi montré l’importance de considérer diverses métriques avec leurs avantages et inconvénients pour évaluer l’efficacité des systèmes de recherche d’information.