Faculté des sciences

Extraction automatique d'information : génération de résumé et question-réponse

Perret, Laura ; Savoy, Jacques (Dir.)

Thèse de doctorat : Université de Neuchâtel, 2005 ; 1792.

Dans cette thèse, nous abordons diverses techniques d’extraction automatique d’information, à savoir la génération de résumé et la question-réponse. Dans la première partie, nous avons implémenté et évalué plusieurs méthodes de génération de résumé à partir d’articles médicaux. L’utilisation de la régression logistique s’est révélée produire les meilleurs... Plus

Ajouter à la liste personnelle
    Résumé
    Dans cette thèse, nous abordons diverses techniques d’extraction automatique d’information, à savoir la génération de résumé et la question-réponse. Dans la première partie, nous avons implémenté et évalué plusieurs méthodes de génération de résumé à partir d’articles médicaux. L’utilisation de la régression logistique s’est révélée produire les meilleurs résultats. Nous avons également combiné cette méthode avec une méthode de classification proposée par une autre équipe de recherche, obtenant une amélioration significative des performandces observées. Dans la deuxième partie, nous avons développé un système de question-réponse pour le français. Dans ce but, nous avons combiné un modèle probabiliste de la recherche d’information classique avec une apporche linguistique basée sur l’analyse syntaxique. Puis, nous avons exploité des ressources de traduction automatique afin de prendre en charge des questions exprimées dans d’autres langues que le français. le système ainsi conçu à été soumis à deux campagnes d’évaluation et a obtenu des résultats encourageants.
    Summary
    In this dissertation, we tackle two aspects of the information retrieval field, nemely text summarization and question answering. The first part is devoted to the implementation and the evaluation of several methods for summarization of medical articles. The logistic regression was found to produce the best results. We also combine this method with a classification approach provided by another research group obtaining a signifiant improvement of performance. In the second part, we developed a question answering system for the french language. To do so, we combined a probabilistic model from the classical information retrieval field with a linguistic approach based on syntactic analysis. Then, we took advantage of automatic translation resources in order to allow questions formulated in other languages than French. This system took part in two evaluation campaigns and produced encouraging results.