Faculté des sciences et techniques de l'ingénieur STI, Section de génie électrique et électronique, Institut de génie électrique et électronique IEL (Laboratoire de l'IDIAP LIDIAP)

Multi-stream processing for noise robust speech recognition

Misra, Hemant ; Bourlard, Hervé (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3508.

Ajouter à la liste personnelle
    Summary
    In this thesis, the framework of multi-stream combination has been explored to improve the noise robustness of automatic speech recognition (ASR) systems. The central idea of multi-stream ASR is to combine information from several sources to improve the performance of a system. The two important issues of multi-stream systems are which information sources (feature representations) to combine and what importance (weights) be given to each information source. In the framework of hybrid hidden Markov model/artificial neural network (HMM/ANN) and Tandem systems, several weighting strategies are investigated in this thesis to merge the posterior outputs of multi-layered perceptrons (MLPs) trained on different feature representations. The best results were obtained by inverse entropy weighting in which the posterior estimates at the output of the MLPs were weighted by their respective inverse output entropies. In the second part of this thesis, two feature representations have been investigated, namely pitch frequency and spectral entropy features. The pitch frequency feature is used along with perceptual linear prediction (PLP) features in a multi-stream framework. The second feature proposed in this thesis is estimated by applying an entropy function to the normalized spectrum to produce a measure which has been termed spectral entropy. The idea of the spectral entropy feature is extended to multi-band spectral entropy features by dividing the normalized full-band spectrum into sub-bands and estimating the spectral entropy of each sub-band. The proposed multi-band spectral entropy features were observed to be robust in high noise conditions. Subsequently, the idea of embedded training is extended to multi-stream HMM/ANN systems. To evaluate the maximum performance that can be achieved by frame-level weighting, we investigated an "oracle test". We also studied the relationship of oracle selection to inverse entropy weighting and proposed an alternative interpretation of the oracle test to analyze the complementarity of streams in multi-stream systems. The techniques investigated in this work gave a significant improvement in performance for clean as well as noisy test conditions.
    Résumé
    L'idée centrale des systèmes à flux multiples est de combiner plusieurs sources d'information pour améliorer la performance finale d'un système. Cette thèse explore la combinaison de flux multiples pour améliorer la résistance au bruit d'un système de reconnaissance automatique de la parole (ASR). Deux directions complémentaires sont considérées : quel flux d'information utiliser (type de représentation des données), et quel importance relative donner à chaque flux (un poids pour chaque flux d'information). Dans le cadre de la reconnaissance de la parole avec systèmes hybrides chaîne de Markov cachée/réseau neuronal (HMM/ANN) d'une part, et systèmes Tandem d'autre part, cette thèse propose trois stratégies pour définir les poids relatifs. Un poids est attribué à chaque perceptron multi-couches (MLPs), et chaque perceptron est entraîné sur un flux d'information différent. Les deux stratégies "postérieure maximum" (MP) et "entropie inverse" définissent les poids à partir des probabilités a posteriori estimées par chaque MLP. La troisième stratégie "vraisemblance maximale" (ML) définit les valeurs des poids de façon à maximiser la vraisemblance des données de test. Les expériences de reconnaissance montrent que la stratégie d'entropie inverse conduit aux meilleurs résultats. Cette thèse considère aussi deux types de flux d'information : fréquence de timbre et entropie spectrale. La fréquence de timbre est liée au signal d'excitation du conduit vocal. Elle est ici utilisée en concaténation avec les informations de prédiction linéaire perceptuelle (PLP). L'entropie spectrale est l'entropie du spectre normalisé. Une extension "bandes multiples" de l'entropie spectrale est proposée : le spectre normalisé est divisé en sous-bandes, et l'entropie est estimée dans chaque sous-bande. Les expériences de reconnaissance montrent que l'entropie spectrale est robuste aux conditions fortement bruitées. Pour connaître l'intégralité du bénéfice potentiel offert par les systèmes à flux multiples, nous avons étudié un "test d'oracle". Ce test indique la performance maximale qui peut être obtenue par les différentes stratégies de combinaison. Nous avons ensuite étudié les relations entre le choix de l'oracle et la stratégie d'entropie inverse. Ceci a conduit à une autre interprétation du test d'oracle, qui permet d'analyser la complémentarité des flux dans les systèmes multi-flux. Enfin, l'idée d'entraînement incorporé a été étendue aux systèmes HMM/ANN à flux multiples. Les techniques étudiées dans cette thèse, à savoir la stratégie de combinaison par entropie inverse, l'entropie spectrale et l'entraînement incorporé à flux multiples, apportent une amélioration significative aux performances de reconnaissance. Ceci est vérifié aussi bien en conditions non-bruitées que bruitées. On en conclut donc que les techniques proposées rendent plus robustes les systèmes de reconnaissance.