Faculté des sciences

La voix du Président américain (1934-2014)

Savoy, Jacques

In: Actes 12e Journées internationales d’analyse statistique des données textuelles JADT 2014, 2014, p. 593-604

This paper describes a lexical study over the State of the Union addresses from 1934 until 2014. This corpus contains 81 governmental speeches uttered by thirteen presidents. This study shows that considering the most frequent lemmas does not provide useful and pertinent information. However when analyzing the part-of-speech (POS) distribution according to each president, we can see that some... More

Add to personal list
    Résumé
    Dans cette communication, nous présentons une analyse lexicale d’un corpus composé des discours sur l’état de l’Union de 1934 à 2014. Ce corpus couvre environ 80 ans de vie gouvernementale américaine avec les allocutions tenues par treize présidents. Cette étude indique que les lemmes les plus fréquents n’apportent pas d’information très pertinente. Par contre, en observant la distribution des catégories grammaticales, nous constatons que Eisenhower ou Kennedy recourent de manière plus fréquente aux groupes nominaux tandis que Obama tend à favoriser les verbes. Avec les années, on constate une légère préférence pour des phrases plus courtes. En s’appuyant sur une distance intertextuelle, nous remarquons que les allocutions tenues par le même président tendent habituellement à se regrouper entre elles. Cette tendance n’est pas générale et certains discours de Reagan ou Bush (père) ont tendance à se regrouper avec d’autres allocutions. En appliquant un modèle à thèmes (topic model), nous constatons que quelques présidences se concentrent sur un thème distinctif (par exemple, Nixon, Bush (son), ou Obama) tandis que d’autres abordent plusieurs sujets (par exemple, Kennedy).
    Summary
    This paper describes a lexical study over the State of the Union addresses from 1934 until 2014. This corpus contains 81 governmental speeches uttered by thirteen presidents. This study shows that considering the most frequent lemmas does not provide useful and pertinent information. However when analyzing the part-of-speech (POS) distribution according to each president, we can see that some presidents such as Eisenhower or Kennedy are using more frequently noun phrases while others (e.g., Obama) prefer using more verbs. When observing the sentence length, we notice that the mean sentence tends to be shorter over the years. Based on an intertextual distance, this study demonstrates that speeches given by the same president tend to be very similar. This is not strong pattern and, for example, some of Reagan or Bush’s (father) speeches tend to cluster with other interventions. Using a topic model (latent Dirichlet allocation), we found that some presidents (e.g., Nixon, Bush (son), Obama) tend to concentrate on a single and distinctive topic while speeches given by other presidents tend to cover different topics (e.g., Kennedy).