Faculté des sciences

Quel est l'auteur de ce roman?

Savoy, Jacques

In: Actes 8ème Conférence en Recherche d’Information et Applications CORIA’11, 2011, p. 135-150

Dans cet article, nous présentons le problème de l'attribution d'auteur d'une oeuvre écrite. Comme représentation des textes, les études récentes s'appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l'analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et... Plus

Ajouter à la liste personnelle
    Résumé
    Dans cet article, nous présentons le problème de l'attribution d'auteur d'une oeuvre écrite. Comme représentation des textes, les études récentes s'appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l'analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et différences entre les représentations des écrits. En appliquant l'approche du plus proche voisin, nous pouvons estimer l'auteur de chaque texte. Comme alternative, nous suggérons de fonder le calcul de distance entre textes sur la base de la spécificité du vocabulaire (Z score). Basée sur une évaluation de corpus en langue française et anglaise, cette solution permet d'accroître la qualité de l'attribution d'auteur.
    Summary
    In this paper, we present the authorship attribution problem. As text representation, recent studies suggest using a small set of function or very frequent words (50 or 100). On this basis, we can apply either the principal component analysis (PCA) or the correspondence analysis (CA) to visualize the relationships between text surrogates. Using the nearest neighbor approach, we can then suggest the possible author of a disputed writing. As new attribution strategy, we propose a technique based on specific vocabulary found in a text comparing to an entire corpus. Based on the nearest neighbour approach, we can derive a simple and efficient authorship attribution scheme. Using two corpora composed of excerpts taken from French and English novels, we show that the suggested classifier tends to perform better than both the PCA and the CA approach.