Recensement de mots pour la prédiction de nouvelles tendances

Gerson, Steve ; Sarrade, Jean-Luc (Dir.)

Mémoire de master : Haute école de gestion de Genève, 2020 ; MASID 89.

Aujourd’hui, Internet regorge d’informations et de données en tout genre. La pratique du web mining est de plus en plus fréquente depuis quelques années dans l’objectif d’analyser les données présentes sur le web. L’objectif de ce travail est d’étudier la possibilité de modéliser et prédire la «vie numérique» des mots appartenant à un domaine donné, en analysant le... More

Add to personal list
    Résumé
    Aujourd’hui, Internet regorge d’informations et de données en tout genre. La pratique du web mining est de plus en plus fréquente depuis quelques années dans l’objectif d’analyser les données présentes sur le web. L’objectif de ce travail est d’étudier la possibilité de modéliser et prédire la «vie numérique» des mots appartenant à un domaine donné, en analysant le contenu de sites web. Le thème de la pandémie du Covid-19 est un sujet vivant sur Internet depuis quelques mois et permet une variété de contenus relativement différents jour après jour. C’est pourquoi les données de ce projet ont pour thème cette pandémie. En analysant temporellement l’importance attribuée à un mot appartenant à ce domaine sur une collection de site web, il est étudié la possibilité de visualiser et de modéliser sa «vie numérique» et dans quelle mesure cela peut amener à effectuer des prédictions sur ses comportements futurs. Afin de pouvoir porter cette analyse, il est nécessaire de récolter des données depuis le web. Ces données doivent pouvoir être récoltées automatiquement grâce à un algorithme de pondération du mot pour chaque site, permettant d’identifier un terme émergeant sur un site web ainsi qu’un site émergeant dans le domaine. Ce travail décrit la méthodologie appliquée ainsi que les outils utilisés pour tenter de modéliser cette «vie numérique».