Faculté des sciences

Etude comparative de stratégies de sélection de prédicteurs pour l’attribution d’auteur

Savoy, Jacques

In: Actes 9ème Conférence en Recherche d’Information et Applications CORIA’12, 2012, p. 215-228

L’attribution d'auteur peut être vue comme une tâche en catégorisation de textes qui se subdivise en deux étapes. D’abord nous devons sélectionner les mots les plus discriminants puis appliquer un modèle de classification. Afin de bien choisir les meilleurs termes, nous avons évalué sept fonctions de sélection dont l’information mutuelle ponctuelle, le gain d’information, le... Plus

Ajouter à la liste personnelle
    Résumé
    L’attribution d'auteur peut être vue comme une tâche en catégorisation de textes qui se subdivise en deux étapes. D’abord nous devons sélectionner les mots les plus discriminants puis appliquer un modèle de classification. Afin de bien choisir les meilleurs termes, nous avons évalué sept fonctions de sélection dont l’information mutuelle ponctuelle, le gain d’information, le rapport de cotes, le Χ2 ou le coefficient de corrélation. Nous avons également retenu deux stratégies de sélection proposées dans le cadre d’attribution d’auteur. Afin de comparer ces méthodes, nous avons repris un corpus de 5 408 articles de presse (Glasgow Herald) écrits par vingt journalistes différents. Basé sur la performance obtenue par la méthode de divergence KLD (Zhao & Zobel, 2007) et Delta (Burrows, 2002), nous remarquons que des stratégies simples proposent des résultats aussi performants que des approches plus complexes.
    Summary
    The authorship attribution problem can be viewed as a categorization problem. To determine the most effective features to discriminate between different writers (or categories), we have evaluated seven feature selection functions (e.g., pointwise mutual information, information gain, odds ratio, Χ2, or correlation coefficient). We have also considered two selection functions proposed in the context of authorship attribution. To compare these approaches, we have selected a newspaper corpus (Glasgow Herald) composed of 5,408 articles written by twenty columnists. Using the KLD (Zhao & Zobel, 2007) and the Delta (Burrows, 2002) attribution scheme, we found that some simple selection functions tend to produce results comparable to more complex ones.