Faculté des sciences

Indexation et représentation comparative : Application au discours électoral

Savoy, Jacques

In: Actes 6ème Conférence en Recherche d’Information et Applications CORIA’09, 2009, p. 185-200

Cet article décrit quelques approches afin d'extraire les termes les plus représentatifs d'un site web ou d'un ensemble de documents en comparaison avec d'autres sites ou un corpus de référence. Nous montrons que la fréquence d'occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s'appuie sur une distribution binomiale des mots et le... Plus

Ajouter à la liste personnelle
    Résumé
    Cet article décrit quelques approches afin d'extraire les termes les plus représentatifs d'un site web ou d'un ensemble de documents en comparaison avec d'autres sites ou un corpus de référence. Nous montrons que la fréquence d'occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s'appuie sur une distribution binomiale des mots et le calcul d'un score normalisé (score Z) mettant en lumière les termes comparativement les plus appropriés. Quelques exemples tirés des discours électoraux suisses ou français illustrent l'intérêt de l'approche suggérée.
    Summary
    This paper describes some possible approaches to automatic extraction of terms closely reflecting the content of a Web site or a set of documents by comparison of other sites or a given corpus. We show that the frequency of occurrences or the rank of the most frequent terms may provide a first overview. In the suggested method, we model the terms distribution according to a binomial process and we proposed to compute a normalized z-score to define the most appropriate terms within a comparative perspective. Examples based on Swiss and French political speeches show the usefulness of the suggested method. MOTS-CLES : Résumé automatique, indexation, distribution lexicale, analyse du discours.