Faculté des sciences

Classification automatique d’opinions dans la blogosphère

Savoy, Jacques ; Zubaryeva, Olena

In: Actes 10e Journées Analyse statistique des Données Textuelles JADT 2010, 2010, p. 653-664

Cette communication traite de la classification automatique opinions dans la blogosphère. Sur la base d'une liste de phrases jugées pertinentes, le système doit déterminer si elles contiennent une opinion ou non. Afin d’atteindre ce but, plusieurs représentations et modèles de catégorisation peuvent être utilisés. Comme système de référence, nous avons retenu une classification... Plus

Ajouter à la liste personnelle
    Résumé
    Cette communication traite de la classification automatique opinions dans la blogosphère. Sur la base d'une liste de phrases jugées pertinentes, le système doit déterminer si elles contiennent une opinion ou non. Afin d’atteindre ce but, plusieurs représentations et modèles de catégorisation peuvent être utilisés. Comme système de référence, nous avons retenu une classification basée sur le modèle Naïve Bayes. L'emploi d'une stratégie SVM (avec une représentation tf idf) permet d'accroître la performance du système. Le système que nous proposons détecte l'usage d'un vocabulaire spécifique à chaque catégorie en recourant à un score normalisé (score z). Ces valeurs nous permettent de déterminer si une phrase contient ou non une opinion. Le système proposé a été implémenté et évalué grâce à la collection test NCTIR écrite en langue anglaise. Celle évaluation indique que notre modèle apporte clairement la meilleure performance. Le recours à un thesaurus spécialisé permet d'accroître encore la performance de catégorisation.
    Summary
    This paper describes the problem of classifying opinion from blogs. After retrieving relevant sentences, the search system must categorize them as opinionated or factual. To achieve this objective, different representations and automatic categorization models could be used. As baseline system, we have used the Naïve Bayes approach to classify the retrieved sentences as opinionated or not. As a second model, we have used an SVM model (based on a tf idf representation) showing an increase in the overall performance. We suggest using a normalized score (Z score) for catch term according to its presence or absence in opinionated sentences. Based on these Z-scores we can determine whether a given sentence belongs to opinionated or not- opinionated category. The proposed system has been evaluated using the NCTIR English test-collection. We show that the suggested classification method performs significantly better than other approaches. Using a specialized thesaurus, we can further improve the overall categorization performance.