Faculté des sciences et techniques de l'ingénieur STI, Section de génie électrique et électronique, Institut de génie électrique et électronique IEL (Laboratoire de l'IDIAP LIDIAP)

Using auxiliary sources of knowledge for automatic speech recognition

Magimai Doss, Mathew ; Bourlard, Hervé (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2005 ; no 3263.

Add to personal list
    Summary
    Standard hidden Markov model (HMM) based automatic speech recognition (ASR) systems usually use cepstral features as acoustic observation and phonemes as subword units. Speech signal exhibits wide range of variability such as, due to environmental variation, speaker variation. This leads to different kinds of mismatch, such as, mismatch between acoustic features and acoustic models or mismatch between acoustic features and pronunciation models (given the acoustic models). The main focus of this work is on integrating auxiliary knowledge sources into standard ASR systems so as to make the acoustic models more robust to the variabilities in the speech signal. We refer to the sources of knowledge that are able to provide additional information about the sources of variability as auxiliary sources of knowledge. The auxiliary knowledge sources that have been primarily investigated in the present work are auxiliary features and auxiliary subword units. Auxiliary features are secondary source of information that are outside of the standard cepstral features. They can be estimation from the speech signal (e.g., pitch frequency, short-term energy and rate-of-speech), or additional measurements (e.g., articulator positions or visual information). They are correlated to the standard acoustic features, and thus can aid in estimating better acoustic models, which would be more robust to variabilities present in the speech signal. The auxiliary features that have been investigated are pitch frequency, short-term energy and rate-of-speech. These features can be modelled in standard ASR either by concatenating them to the standard acoustic feature vectors or by using them to condition the emission distribution (as done in gender-based acoustic modelling). We have studied these two approaches within the framework of hybrid HMM/artificial neural networks based ASR, dynamic Bayesian network based ASR and TANDEM system on different ASR tasks. Our studies show that by modelling auxiliary features along with standard acoustic features the performance of the ASR system can be improved in both clean and noisy conditions. We have also proposed an approach to evaluate the adequacy of the baseform pronunciation model of words. This approach allows us to compare between different acoustic models as well as to extract pronunciation variants. Through the proposed approach to evaluate baseform pronunciation model, we show that the matching and discriminative properties of single baseform pronunciation can be improved by integrating auxiliary knowledge sources in standard ASR. Standard ASR systems use usually phonemes as the subword units in a Markov chain to model words. In the present thesis, we also study a system where word models are described by two parallel chains of subword units: one for phonemes and the other are for graphemes (phoneme-grapheme based ASR). Models for both types of subword units are jointly learned using maximum likelihood training. During recognition, decoding is performed using either or both of the subword unit chains. In doing so, we thus have used graphemes as auxiliary subword units. The main advantage of using graphemes is that the word models can be defined easily using the orthographic transcription, thus being relatively noise free as compared to word models based upon phoneme units. At the same time, there are drawbacks to using graphemes as subword units, since there is a weak correspondence between the grapheme and the phoneme in languages such as English. Experimental studies conducted for American English on different ASR tasks have shown that the proposed phoneme-grapheme based ASR system can perform better than the standard ASR system that uses only phonemes as its subword units. Furthermore, while modelling context-dependent graphemes (similar to context-dependent phonemes), we observed that context-dependent graphemes behave like phonemes. ASR studies conducted on different tasks showed that by modelling context-dependent graphemes only (without any phonetic information) performance competitive to the state-of-the-art context-dependent phoneme-based ASR system can be obtained.
    Résumé
    Les systèmes de reconnaissance de la parole (ASR) utilisant des chaînes de Markov cachées (HMM) utilisent généralement des données cepstrales comme observations, et des phonèmes comme modèles elémentaires. Pour le même contenu lexical, le signal de parole est très variable. La variabilité peut être causée par l'environnement ou la personne. Ceci conduit à différent types de disparités : entre observations et modèles acoustiques, ou bien entre observations et modèles de prononciation (connaissant les modèles acoustiques). L'objet principal de cette thèse est d'incorporer des sources d'informations "auxiliaires" dans les systèmes standards d'ASR, pour les rendre plus robustes à la variabilité du signal de parole. Ces sources d'informations auxiliaires apportent une connaissance additionnelle sur les sources de variabilité, comme par exemple la vitesse d'élocution. Les principales sources d'informations auxiliaires considérées dans cette thèse sont de deux types : les observations auxiliaires et les modèles auxiliaires des phonèmes. Les observations auxiliaires apportent une connaissance complémentaire aux observations cepstrales. Elles peuvent être estimées directement à partir du signal de parole (timbre, énergie, vitesse d'élocution), ou bien à partir de mesures complémentaires (position de la machoire, information visuelle). Etant corrélées avec les observations acoustiques standards, elles peuvent permettre de construire de meilleurs modèles acoustiques, en les rendant moins sensibles à la variabilité du signal de parole. Dans cette thèse, nous avons étudié le timbre, l'énergie et la vitesse d'élocution. Ces observations auxiliaires sont intégrées à un système standard d'ASR, soit en concaténant observations acoustiques et auxiliaires, soit en utilisant les observations auxiliaires pour conditionner les probabilités d'émission des observations acoustiques. Nous avons étudié ces deux approches appliquées à trois type de systèmes : système hybride HMM/ANN (réseau neuronal), système HMM/DBN (résau dynamique bayésien), et système TANDEM. Plusieurs tâches d'ASR sont considérées. Les résultats montrent que les observations auxiliaires permettent d'améliorer la performance d'ASR, à la fois dans les environnement bruités et non-bruités. De plus, nous proposons une approche d'évaluation de la prononciation de base de chaque mot, vis-à-vis des données observées. Cette approche permet à la fois d'extraire automatiquement de nouveaux modèles de prononciation, de les comparer entre elles et d'évaluer la stabilité de la prononciation de base. L'information auxiliaire apportée par les nouvelles prononciations permet d'améliorer la performance d'ASR. Enfin, cette thèse étudie la modélisation acoustique en terme de graphèmes, comme complément à la modélisation standard, faite en terme de phonèmes. Pour modéliser un mot, deux chaînes parallèles de sous-unités — phonèmes et graphèmes — sont utilisées. L'apprentissage se fait de façon conjointe, pour maximiser la vraisemblance des données observées. Pendant la reconnaissance, le décodage est fait en utilisant soit l'un des deux types de modèles, soit les deux ensembles. Dans tous les cas, la modélisation par graphèmes est utilisée commme information auxiliaire. L'avantage principal des graphèmes est que chaque mot peut être modélisé facilement en utlisant la transcription orthographique. Celle-ci peut être considérée comme moins bruitée par rapport à la transcription en termes de phonèmes. Cependant, les graphèmes ont un désavantage, car la correspondance entre entre graphèmes et phonèmes est faible dans certains langages comme l'Anglais. Les résultats d'ASR pour l'Anglais américain sur différentes tâches montrent que l'adjonction de l'information auxiliaire des graphèmes peut améliorer la performance de la reconnaissance. De plus, lors de l'étude des modèles à base de graphèmes dépendant du contexte, nous observons qu'ils se comportent de façon similaire aux phonèmes. Les performances d'ASR des systèmes utilisant uniquement des graphèmes dépendant du contexte, sans information phonétique, sont similaires aux performances des systèmes habituels, qui utilisent des phonèmes dépendant du contexte.