Faculté des sciences

Usefulness of the LPC-residue in text-independent speaker verification

Thévenaz, Philippe ; Hügli, Heinz

In: Speech Communication, 1995, vol. 17, no. 1-2, p. 145-157

Cet article présente une contribution au domaine de la reconnaissance de locuteurs. Il traite de l'analyse de la parole par prédiction linéaire et examine la contribution en reconnaissance de ses deux composantes principales, le filtre de synthèse d'une part et le résidu d'autre part. Cette étude se fonde sur la propriété d'orthogonalité ainsi que l'importance physiologique de ces deux... Plus

Ajouter à la liste personnelle
    Résumé
    Cet article présente une contribution au domaine de la reconnaissance de locuteurs. Il traite de l'analyse de la parole par prédiction linéaire et examine la contribution en reconnaissance de ses deux composantes principales, le filtre de synthèse d'une part et le résidu d'autre part. Cette étude se fonde sur la propriété d'orthogonalité ainsi que l'importance physiologique de ces deux composantes, qui suggèrent que la reconnaissance du locuteur se basant exclusivement sur le filtre de synthèse peut être améliorée. En particulier, nous proposons une nouvelle représentation du résidu et nous examinons ses propriétés de reconnaissance au moyen d'expériences conduites dans un contexte de vérification du locuteur indépendante du texte. Ces expériences, utilisant à la fois des méthodes connues et nouvelles, nous permettent de comparer les contributions des deux composantes au succès de la reconnaissance. Nous commençons par comparer les méthodes séparément, puis conjointement. Nous conduisons ces expériences en utilisant la même base de données et la même méthodologie, caractérisée par la stricte séparation des ensembles d'apprentissage et de test. Les résultats obtenus démontrent l'utilité propre du résidu, même si elle apparaît moindre que celle du filtre de synthèse. Cependant, le résidu se montre particulièrement utile quand ces deux composantes sont combinées. Dans le cas reporté ici, un taux d'erreur de 5.7% a pu être réduit à 4.0%.
    Zusammenfassung
    Dieser Artikel ist ein Beitrag zur automatischen Sprechererkennung. Er widmet sich der linearen prädiktiven Sprachanalyse und untersucht den Beitrag zur Erkennung der resultierenden zwei Hauptkomponenten, namentlich des Synthesefilters einerseits und des Residuums andererseits. Diese Untersuchung ist durch die Orthogonalitätseigenschaft beider Komponenten sowie deren physiologischer Bedeutung motiviert, welche darauf hinweisen, daβ übliche, nur auf Merkmale des Synthesefilters basierte Sprechererkennung, verbessert werden kann. Insbesondere schlagen wir ein neues Merkmal zur Beschreibung des Residuums vor, und analysieren danach die entsprechenden Erkennungseigenschaften durch praktische Experimente im Rahmen der textunabhängigen Sprecherverifizierung. Wir vergleichen die Beiträge zur Erkennung der beiden Komponenten durch Versuche mittels bekannten sowohl originalen Methoden. Zuerst werden die Methoden einzeln verglichen, dann kombiniert. Alle Versuche werden mittels der selben Datenbank und nach dem selben Testverfahren, mit getrennten Trainings- und Test-daten, durchgeführt. Die Resultate zeigen, daβ das Residuum ein recht nützliches Merkmal ist. Allein betrachtet ist es zwar weniger effizient als das Synthesefilter. Das Residuum zeigt aber seine echte Wirkungsweise im kombinierten Einsatz mit dem Synthesefilter. Es bewirkt eine Reduzierung der Fehlerrate, welche zum Beispiel von 5.7% auf 4.0% gelangt.
    Summary
    This paper is a contribution to automatic speaker recognition. It considers speech analysis by linear prediction and investigates the recognition contribution of its two main resulting components, namely the synthesis filter on one hand and the residue on the other hand. This investigation is motivated by the orthogonality property and the physiological significance of these two components, which suggest the possibility of an improvement over current speaker recognition approaches based on nothing but the usual synthesis filter features. Specifically, we propose a new representation of the residue and we analyse its corresponding recognition performance by issuing experiments in the context of text-independent speaker verification. Experiments involving both known and new methods allow us to compare the recognition performance of the two components. First we consider separate methods, then we combine them. Each method is tested on the same database and according to the same methodology, with strictly disjoint training and test data sets. The results show the usefulness of the residue when used alone, even if it proves to be less efficient than the synthesis filter. However, when both are combined, the residue shows its true relevance. It achieves a reduction of the error rate which, in our case, went down from 5.7% to 4.0%.