Université de Neuchâtel

Catégorisation de documents : applications en attribution d’auteur et analyse stylistique

Savoy, Jacques

In: Le Document ? Actes du 20e Colloque International sur le Document numérique (CiDE.20), 2017, p. 1-14

La catégorisation de documents (attribution d'un texte à une ou plusieurs catégories prédéfinies) représente un problème possédant de multiples facettes. Ainsi, l'indexation automatique correspond à l'une d'entre elles qui se fonde sur la sémantique des documents. Cependant d'autres applications analysent les mots­ outils, ces formes qui ne portent que peu ou pas de sens. Or ces...

Université de Neuchâtel

La voix du Président américain (1934-2014)

Savoy, Jacques

In: Actes 12e Journées internationales d’analyse statistique des données textuelles JADT 2014, 2014, p. 593-604

Dans cette communication, nous présentons une analyse lexicale d’un corpus composé des discours sur l’état de l’Union de 1934 à 2014. Ce corpus couvre environ 80 ans de vie gouvernementale américaine avec les allocutions tenues par treize présidents. Cette étude indique que les lemmes les plus fréquents n’apportent pas d’information très pertinente. Par contre, en observant la...

Université de Neuchâtel

Classification automatique d’opinions dans la blogosphère

Savoy, Jacques ; Zubaryeva, Olena

In: Actes 10e Journées Analyse statistique des Données Textuelles JADT 2010, 2010, p. 653-664

Cette communication traite de la classification automatique opinions dans la blogosphère. Sur la base d'une liste de phrases jugées pertinentes, le système doit déterminer si elles contiennent une opinion ou non. Afin d’atteindre ce but, plusieurs représentations et modèles de catégorisation peuvent être utilisés. Comme système de référence, nous avons retenu une classification...

Université de Neuchâtel

Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)

Savoy, Jacques

In: Actes 11e Journées internationales d’analyse statistique des données textuelles JADT 2012, 2012, p. 897-909

Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (Latent Dirichlet Allocation, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de...

Université de Neuchâtel

Etude comparative de l’efficacité du dépistage de l’information dans des manuscrits médiévaux

Naji, Nada ; Savoy, Jacques

In: Actes 11e Journées internationales d’analyse statistique des données textuelles JADT 2012, 2012, p. 753-766

Université de Neuchâtel

Etude comparative de stratégies de sélection de prédicteurs pour l’attribution d’auteur

Savoy, Jacques

In: Actes 9ème Conférence en Recherche d’Information et Applications CORIA’12, 2012, p. 215-228

L’attribution d'auteur peut être vue comme une tâche en catégorisation de textes qui se subdivise en deux étapes. D’abord nous devons sélectionner les mots les plus discriminants puis appliquer un modèle de classification. Afin de bien choisir les meilleurs termes, nous avons évalué sept fonctions de sélection dont l’information mutuelle ponctuelle, le gain d’information, le...

Université de Neuchâtel

Recherche d’information dans un corpus bruité (OCR)

Naji, Nada ; Savoy, Jacques ; Dolamic, Ljiljana

In: Actes 8ème Conférence en Recherche d’Information et Applications CORIA’11, 2011, p. 271-286

Cet article désire mesurer la perte de performance lors de la recherche d'information dans une collection de documents scannés. Disposant d'un corpus sans erreur et de deux versions renfermant 5 % et 20 % d'erreurs en reconnaissance, nous avons évalué six modèles de recherche d'information basés sur trois représentations des documents (sac de mots, n-grammes, ou trunc-n) et trois...

Université de Neuchâtel

Quel est l'auteur de ce roman?

Savoy, Jacques

In: Actes 8ème Conférence en Recherche d’Information et Applications CORIA’11, 2011, p. 135-150

Dans cet article, nous présentons le problème de l'attribution d'auteur d'une oeuvre écrite. Comme représentation des textes, les études récentes s'appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l'analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et...

Université de Neuchâtel

Recherche documentaire sur le Web : Les hyperliens sont-ils vraiment utiles ?

Savoy, Jacques ; Picard, Justin

In: Actes 5e Journées Analyse statistique des Données Textuelles JADT 2000, 2000, p. 27-34

Les systèmes hypertexte, les bibliothèques numériques ou le Web connaissent un intérêt grandissant. Pour trouver de l’information pertinente, la navigation à elle seule ne peut pas être vue comme un moyen efficace, surtout si l’on considère le nombre considérable de pages et de liens. Le recours à des moteurs de recherche s'avère essentiel et leur présence à permis au Web de...

Université de Neuchâtel

Fusion de collections dans les métamoteurs

Savoy, Jacques ; Rasolofo, Yves ; Abbaci, Faïza

In: Actes 6e journées Analyse statistique des Données Textuelles JADT 2002, 2002, p. 689-699

Les métamoteurs disponibles sur le Web offrent la possibilité d'interroger de nombreux serveurs d'information soulevant le problème de la fusion des résultats provenant des différents moteurs interrogés. Dans cet article, nous proposons une nouvelle stratégie de fusion n'utilisant que le rang des documents dépistés par les divers moteurs de recherche consultés. De plus, nous évaluons...