Faculté des sciences

Text clustering with styles

Kocher, MIrco ; Savoy, Jacques (Dir.)

Thèse de doctorat : Université de Neuchâtel, 2017.

Cette thèse présente le problème du regroupement d'auteurs formulé de la manière suivante : en partant d'un ensemble composé de n textes, le but est de déterminer le nombre k d'auteurs distincts, pour regrouper les textes en k classes. De manière itérative, nous construisons un système stable et simple qui est capable de regrouper automatiquement les documents selon... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse présente le problème du regroupement d'auteurs formulé de la manière suivante : en partant d'un ensemble composé de n textes, le but est de déterminer le nombre k d'auteurs distincts, pour regrouper les textes en k classes. De manière itérative, nous construisons un système stable et simple qui est capable de regrouper automatiquement les documents selon leurs thèmes.
    Dans notre étude, nous commençons par proposer une mesure capable d'estimer l'(in-)certitude de la décision proposée, dans le but d'obtenir un indicateur de confiance en lieu et place d'une simple réponse. Ensuite, nous combinons les paires de textes pour lesquelles une même affectation apparaît, et dont nous sommes suffisamment confiants pour affirmer qu'ils sont rédigés par le même auteur. Enfin, après avoir vérifié chaque tuple de textes, nous construisons les classes en nous basant sur une stratégie utilisant une distance entre distributions probabilistes. Grâce à l'utilisation d'une limite dynamique, nous sommes à même de choisir les plus petites distances relatives pour détecter une origine commune entre textes.
    Bien que notre étude se concentre principalement sur la création de méthodes simples, des schémas plus complexes mènent à des résultats plus performants. Ainsi, nous avons opté pour une représentation distribuée et nous avons comparé son efficacité à plusieurs méthodes d'attribution d'auteurs. Cette évaluation nous permet de démontrer que toutes les approches n'excellent pas dans toutes les situations, et que des méthodes d'apprentissage profond peuvent être sensibles au choix des paramètres.
    Les observations les plus proches des exemples en question (ou la catégorie ayant la plus petite distance) déterminent généralement les réponses proposées. Nous avons testé plusieurs fonctions de distance inter-textuelle sur des critères théoriques et empiriques. Nous démontrons que les distances dites de Tanimoto et de Matusita respectent toutes les propriétés théoriques. Toutes deux obtiennent également de bons résultats dans le cadre de tests empiriques. Toutefois, les mesures de Canberra et de Clark sont encore mieux adaptées, bien qu'elles ne remplissent pas toutes les caractéristiques théoriques demandées. De manière générale, l'on constate que la fonction Cosinus ne répond pas à toutes les conditions, et se comporte de façon suboptimale. Enfin, nous observons que la réduction des traits stylistiques retenues diminue le temps d'exécution et peut également améliorer les performances en ignorant les redondantes.
    Nous testons nos systèmes pour différentes langues naturelles appartenant à une variété de familles de langues et pour plusieurs genres de textes. Grâce à la sélection flexible des attributs, nos systèmes sont capables de produire des résultats fiables dans toutes les conditions testées.
    Summary
    This thesis mainly describes the author clustering problem where, based on a set of n texts, the goal is to determine the number k of distinct authors and regroup the texts into k classes according to their author. We iteratively build a stable and simple model for text clustering with styles.
    We start by designing a measure reflecting the (un)certainty of the proposed decision such that every decision comes along with a confidence of correctness instead of only giving a single answer. Afterwards, we link those pairs of texts where we see an indication of a shared authorship and have enough evidence that the same person has written them. Finally, after checking every text tuple, if we can link them together, we build the final clusters based on a strategy using a distance of probability distributions. Employing a dynamic threshold, we can choose the smallest relative distance values to detect a common origin of the texts.
    While in our study we mostly focus on the creation of simple methods, investigating more complex schemes leads to interesting findings. We evaluate distributed language representations and compare them to several state-of-the-art methods for authorship attribution. This comparison allows us to demonstrate that not every approach excels in every situation and that the deep learning methods might be sensitive to parameter settings.
    The most similar observations (or the category with the smallest distance) to the sample in question usually determines the proposed answers. We test multiple inter-textual distance functions in theoretical and empirical tests and show that the Tanimoto and Matusita distances respect all theoretical properties. Both of them perform well in empirical tests, but the Canberra and Clark measures are even better suited even though they do not fulfill all the requirements. Overall, we can note that the popular Cosine function neither satisfies all the conditions nor works notably well. Furthermore, we see that reducing the text representation not only decreases the runtime but can also increase the performance by ignoring spurious features. Our model can choose the characteristics that are the most relevant to the text in question and can analyze the author adequately.
    We apply our systems in various natural languages belonging to a variety of language families and in multiple text genres. With the flexible feature selection, our systems achieve reliable results in any of the tested settings.