Faculté des sciences et techniques de l'ingénieur STI, Section d'électricité, Institut de génie électrique et électronique IEL (Laboratoire de l'IDIAP LIDIAP)

Speech recognition with auxiliary information

Stephenson, Todd Andrew ; Bourlard, Hervé (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2003 ; no 2772.

Ajouter à la liste personnelle
    Summary
    Automatic speech recognition (ASR) is a very challenging problem due to the wide variety of the data that it must be able to deal with. Being the standard tool for ASR, hidden Markov models (HMMs) have proven to work well for ASR when there are controls over the variety of the data. Being relatively new to ASR, dynamic Bayesian networks (DBNs) are more generic models with algorithms that are more flexible than those of HMMs. Various assumptions can be changed without modifying the underlying algorithm and code, unlike in HMMs; these assumptions relate to the variables to be modeled, the statistical dependencies between these variables, and the observations which are available for certain of the variables. The main objective of this thesis, therefore, is to examine some areas where DBNs can be used to change HMMs' assumptions so as to have models that are more robust to the variety of data that ASR must deal with. HMMs model the standard observed features by jointly modeling them with a hidden discrete state variable and by having certain restraints placed upon the states and features. Some of the areas where DBNs can generalize this modeling framework of HMMs involve the incorporation of even more "auxiliary" variables to help the modeling which HMMs typically can only do with the two variables under certain restraints. The DBN framework is more flexible in how this auxiliary variable is introduced in different ways. First, this auxiliary information aids the modeling due to its correlation with the standard features. As such, in the DBN framework, we can make it directly condition the distribution of the standard features. Second, some types of auxiliary information are not strongly correlated with the hidden state. So, in the DBN framework we may want to consider the auxiliary variable to be conditionally independent of the hidden state variable. Third, as auxiliary information tends to be strongly correlated with its previous values in time, I show DBNs using discretized auxiliary variables that model the evolution of the auxiliary information over time. Finally, as auxiliary information can be missing or noisy in using a trained system, the DBNs can do recognition using just its prior distribution, learned on auxiliary information observations during training. I investigate these different advantages of DBN-based ASR using auxiliary information involving articulator positions, estimated pitch, estimated rate-of-speech, and energy. I also show DBNs to be better at incorporating auxiliary information than hybrid HMM/ANN ASR, using artificial neural networks (ANNs). I show how auxiliary information is best introduced in a time-dependent manner. Finally, DBNs with auxiliary information are better able than standard HMM approaches to handling noisy speech; specifically, DBNs with hidden energy as auxiliary information -- that conditions the distribution of the standard features and which is conditionally independent of the state -- are more robust to noisy speech than HMMs are.
    Résumé
    La reconnaissance automatique de la parole (ASR) est un grand défi, vu la grande variété des données concernées. Lorsque les types de données sont suffisamment homogènes, les modèles de Markov cachées (HMMs) sont efficaces et representent l'état de l'art. Plus récents en ASR, les réseaux dynamiques bayésiens (DBNs) utilisent des algorithmes plus génériques et plus flexibles: deux groupes d'hypothèses intrinsèques aux HMMs ne sont plus nécessaires, à savoir celles concernant les dépendance statistiques entre les variables et celles concernant les données observables. Dans le contexte des DBNs, ces deux types d'hypothèses peuvent être ajoutées ou relaxées sans changement de code. L'objectif principal de cette thèse est donc d'examiner des situations où les DBNs peuvent être utilisés pour changer les hypothèses des HMMs, afin de construire des modèles plus robustes face à la grande variété de données utilisées en ASR. Les HMMs modèlent conjointement les variables observées et les variables d'état cachées discrètes, en imposant des contraintes aux états et aux variables observées. Les DBNs permettent de généraliser cette modélisation en incorporant d'autres variables "auxiliaires". La flexibilité apportée par les DBNs a plusieurs aspects. Premièrement, l'information auxiliaire facilite la modélisation car on peut exploiter sa corrélation avec la variable observée. Ainsi, en utilisant les DBNs l'information auxiliaire peut conditionner directement les distributions de probabilités des variables observées. Deuxièmement, certains types d'information auxiliaire ne sont que faiblement corrélés avec les variables d'état. Dans ce cas, les DBNs permettent de considérer les variables d'état comme conditionellement indépendantes des variables auxiliaires. Troisièmement, comme l'information auxiliaire est souvent caractérisée par une forte corrélation entre valeur présente et valeurs passées, les DBNs peuvent utiliser des variables auxiliaires discrètes pour en modéliser les variations dans le temps. Enfin, si lors de l'utilisation d'un système DBN entraîné, l'information auxiliaire est manquante ou bruitée, il est possible de la remplacer par sa distribution a priori apprise pendant l'entraînement. Dans cette thèse, j'étudie ces différents avantages des DBNs. Les informations auxiliaires j'ai analysées comprennent la position du système articulatoire, le ton de la voix, la cadence de parole et l'énergie. Je montre aussi que les DBNs incorporent mieux l'information auxiliaire que les systèmes hybrides HMM/ANN (HMM et réseaux de neurones artificiels). De plus, je montre qu'utiliser l'information auxiliaire est nettement plus efficace si l'on introduit des dépendances temporelles. Enfin, les DBNs utilisant une information auxilaire sont plus efficaces que les HMMs normaux pour la reconnaissance de parole bruitée. En particulier, utiliser l'énergie comme variable auxiliaire - indépendante de l'état et non observée lors du décodage - apporte une amélioration significative par rapport aux HMMs.