Faculté des sciences

Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)

Savoy, Jacques

In: Actes 11e Journées internationales d’analyse statistique des données textuelles JADT 2012, 2012, p. 897-909

Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (Latent Dirichlet Allocation, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de... Plus

Ajouter à la liste personnelle
    Résumé
    Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (Latent Dirichlet Allocation, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de calculer une distance entre un texte dont l’auteur est inconnu et les divers profils d’auteur (agrégation de tous les écrits d’un même écrivain). La distance minimale nous permettra de déterminer l’auteur probable. Afin d’évaluer cette solution et de la comparer avec trois autres stratégies d’attribution d’auteur, nous avons créé une collection-test composée de 4 326 articles écrits par vingt journalistes du journal La Stampa. Cette étude comparative démontre qu’une approche basée sur la LDA offre, sous certaines conditions, une qualité d’affectation supérieure à la règle Delta, à l’usage de la distance du Χ2 ou à une technique basée sur la mesure de divergence Kullbach-Leibler (KLD). Le temps de traitement pénalise toutefois la technique LDA en comparaison aux autres approches.
    Summary
    This paper describes and evaluates the use of Latent Dirichlet Allocation (LDA) as an new approach to authorship attribution. Based on this generative probabilistic model, each document is represented by a mixture of topic distributions with each topic specifying a given distribution over words. Based on author profiles (aggregation of all texts written by the same writer), we then propose computing a distance with a disputed text to determine its likely author. The smallest distance will define the most probable writer. To evaluate this approach together with three other attributions schemes, we develop an experiment based on 4,326 newspaper articles (La Stampa) written in Italian by twenty distinct columnists. This research demonstrates that the LDAbased classification scheme tends, under certain conditions, to perform better than the Delta rule, the Χ2 distance or the Kullbach-Leibler divergence (KLD) scheme. The computational cost however tends to penalize LDA method compared to other algorithms.