Faculté informatique et communications IC, Section des systèmes de communication

Novel speech processing techniques for robust automatic speech recognition

Tyagi, Vivek ; Wellekens, Christian (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3637.

Add to personal list
    Summary
    The goal of this thesis is to develop and design new feature representations that can improve the automatic speech recognition (ASR) performance in clean as well noisy conditions. One of the main shortcomings of the fixed scale (typically 20-30 ms long analysis windows) envelope based feature such as MFCC, is their poor handling of the non-stationarity of the underlying signal. In this thesis, a novel stationarity-synchronous speech spectral analysis technique has been proposed that sequentially detects the largest quasi-stationary segments in the speech signal (typically of variable lengths varying from 20-60 ms), followed by their spectral analysis. In contrast to a fixed scale analysis technique, the proposed technique provides better time and frequency resolution, thus leading to improved ASR performance. Moving a step forward, this thesis then outlines the development of theoretically consistent amplitude modulation and frequency modulation (AM-FM) techniques for a broad band signal such as speech. AM-FM signals have been well defined and studied in the context of communications systems. Borrowing upon these ideas, several researchers have applied AM-FM modeling for speech signals with mixed results. These techniques have varied in their definition and consequently the demodulation methods used therein. In this thesis, we carefully define AM and FM signals in the context of ASR. We show that for a theoretically meaningful estimation of the AM signals, it is important to constrain the companion FM signal to be narrow-band. Due to the Hilbert relationships, the AM signal induces a component in the FM signal which is fully determinable from the AM signal and hence forms the redundant information. We present a novel homomorphic filtering technique to extract the leftover FM signal after suppressing the redundant part of the FM signal. The estimated AM message signals are then down-sampled and their lower DCT coefficients are retained as speech features. We show that this representation is, in fact, the exact dual of the real cepstrum and hence, is referred to as fepstrum. While Fepstrum provides amplitude modulations (AM) occurring within a single frame size of 100ms, the MFCC feature provides static energy in the Mel-bands of each frame and its variation across several frames (the deltas). Together these two features complement each other and the ASR experiments (hidden Markov model and Gaussian mixture model (HMM-GMM) based) indicate that Fepstrum feature in conjunction with MFCC feature achieve significant ASR improvement when evaluated over several speech databases. The second half of this thesis deals with the noise robust feature extraction techniques. We have designed an adaptive least squares filter (LeSF) that enhances a speech signal corrupted by broad band noise that can be non-stationary. This technique exploits the fact that the autocorrelation coefficients of a broad-band noise decay much more rapidly with increasing time lag as compared to those of the speech signal. This is especially true for voiced speech as it consists of several sinusoids at the multiples of the fundamental frequency. Hence the autocorrelation coefficients of the voiced speech are themselves periodic with period equal to the pitch period. On the other hand, the autocorrelation coefficients of a broad band noise are rapidly decaying with increasing time lag. Therefore, a high order (typically 100 tap) least square filter that has been designed to predict a noisy speech signal (speech + additive broad band noise) will predict more of the clean speech components than the broad band noise. This has been analytically proved in this thesis and we have derived analytic expressions for the noise rejection achieved by such a least squares filter. This enhancement technique has led to significant ASR accuracy in the presence of real life noises such as factory noise and aircraft cockpit noise. Finally, the last two chapters of this thesis deal with feature level noise robustness technique. Unlike the least squares filtering that enhances the speech signal itself (in the time domain), the feature level noise robustness techniques as such do not enhance the speech signal but rather boosts the noise-robustness of the speech features that usually are non-linear functions of the speech signal's power spectrum. The techniques investigated in this thesis provided a significant improvement in the ASR performance for the clean as well noisy acoustic conditions.
    Résumé
    Le but de cette thèse est de développer et concevoir de nouvelles représentations caractéristiques qui peuvent améliorer la performance de la reconnaissance automatique de la parole (ASR) avec ou sans conditions de bruit. Un des principaux défauts d'une enveloppe de taille fixe (typiquement une fenêtre d'analyse de 20 à 30 ms) comme MFCC, est le traitement insuffisant du signal implicite non stationnaire. Dans cette thèse, une nouvelle technique d'analyse spectrale stationnaire et synchrone de la parole est proposée, elle détecte séquentiellement les plus larges segments quasi-stationnaires dans le signal de la parole (typiquement avec des longueurs variant entre 20 et 60 ms), suivie de leur analyse spectrale. Contrairement à une technique d'analyse avec une échelle fixe, celle proposée apporte une meilleure résolution de temps et de fréquence permettant d'améliorer les performances de l'ASR. Cette thèse souligne le développement des techniques logiques et théoriques de modulations d'amplitude et de fréquence (AM-FM) pour un signal à bandes larges comme la parole. Les signaux AM et FM ont été définis et étudiés dans le contexte des systèmes de communications. S'appuyant sur ces idées, de nombreux chercheurs ont appliqué les modèles AM et FM pour les signaux de la parole avec des résultats mitigés. Ces techniques ont évolué ainsi que les méthodes de démodulation. Dans cette thèse, nous définissons soigneusement les signaux AM et FM dans le contexte ASR. Nous montrons que pour une estimation théorique significative des signaux AM, il est important de contraindre les signaux FM à d'étroites bandes. Avec les relations d'Hilbert, le signal AM crée un composant dans le signal FM qui est déterminable à partir du signal AM et qui forme une information redondante. Nous présentons une nouvelle technique filtrante homomorphique pour extraire le surplus du signal FM après avoir supprimé la partie redondante du signal FM. Les signaux AM estimés sont de basses amplitudes et leurs bas coefficients DCT sont retenus comme ces caractéristiques de la parole. Nous montrons que cette représentation est le double exact du "cepstrum" réel et est noté "fepstrum". Tandis que Festrum fournit des modulations d'amplitude (AM) se produisant dans une seule fenêtre de 100 ms, la caractéristique MFCC fournit une énergie statique dans les "Mel-bands" de chaque fenêtre et des variations à travers plusieurs fenêtres. Ces deux caractéristiques se complémentent et les expériences ASR indiquent que la caractéristique Fesptrum en conjonction avec celle MFCC accomplit des améliorations ASR significatives en évaluant d'autres bases de données de la parole. Le second point de cette thèse traite des techniques d'extraction des caractéristiques robustes au bruit. Nous avons élaboré un filtre adaptatif de moindres carrés qui améliore le signal de la parole corrompu par une large bande de bruit pouvant être non stationnaire. Cette technique exploite le fait que le coefficient d'autocorrélation d'une large bande de bruit baisse rapidement avec un temps de retard croissant comparé à celui du signal de la parole. Ceci est vrai pour la voix car elle consiste en plusieurs sinusoïdes de fréquences fondamentales. Les coefficients d'autocorrélation de la voix sont eux-mêmes périodiques. Ceux d'une large bande de bruit décroissent rapidement avec l'augmentation du temps de retard. Donc un filtre carré qui est conçu pour prédire un signal de la parole bruité prédira plus des composants de la parole non bruités qu'un bruit de large bande. Ceci est analytiquement prouvé dans cette thèse et nous avons dérivé les expressions analytiques pour le rejet du bruit par de tels filtres carrés. Cette amélioration technique a conduit à une précision significative de l'ASR en présence de bruit naturel comme le bruit d'usine ou celui d'un cockpit d'avion. Finalement, les deux derniers chapitres de cette thèse traitent des techniques robustes des caractéristiques de niveau de bruit. Les techniques abordées dans cette thèse apportent une amélioration significative dans la performance de ASR dans des conditions acoustiques bruitées ou non.