Faculté des sciences et techniques de l'ingénieur STI, Section de génie électrique et électronique, Institut de génie électrique et électronique IEL (Laboratoire de l'IDIAP LIDIAP)

Spatio-temporal analysis of spontaneous speech with microphone arrays

Lathoud, Guillaume ; Bourlard, Hervé (Dir.) ; Odobez, Jean-Marc (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3689.

Add to personal list
    Summary
    Accurate detection, localization and tracking of multiple moving speakers permits a wide spectrum of applications. Techniques are required that are versatile, robust to environmental variations, and not constraining for non-technical end-users. Based on distant recording of spontaneous multi-party conversations, this thesis focuses on the use of microphone arrays to address the question "Who spoke where and when?". The speed, the versatility and the robustness of the proposed techniques are tested on a variety of real indoor recordings, including multiple moving speakers as well as seated speakers in meetings. Optimized implementations are provided in most cases. We propose to discretize the physical space into a few sectors, and for each time frame, to determine which sectors contain active acoustic sources ("Where? When?"). A topological interpretation of beamforming is proposed, which permits both to evaluate the average acoustic energy in a sector for a negligible cost, and to locate precisely a speaker within an active sector. One additional contribution that goes beyond the field of microphone arrays is a generic, automatic threshold selection method, which does not require any training data. On the speaker detection task, the new approach is dramatically superior to the more classical approach where a threshold is set on training data. We use the new approach into an integrated system for multispeaker detection-localization. Another generic contribution is a principled, threshold-free, framework for short-term clustering of multispeaker location estimates, which also permits to detect where and when multiple trajectories intersect. On multi-party meeting recordings, using distant microphones only, short-term clustering yields a speaker segmentation performance similar to that of close-talking microphones. The resulting short speech segments are then grouped into speaker clusters ("Who?"), through an extension of the Bayesian Information Criterion to merge multiple modalities. On meeting recordings, the speaker clustering performance is significantly improved by merging the classical mel-cepstrum information with the short-term speaker location information. Finally, a close analysis of the speaker clustering results suggests that future research should investigate the effect of human acoustic radiation characteristics on the overall transmission channel, when a speaker is a few meters away from a microphone.
    Résumé
    La détection, la localisation et le suivi dans l'espace de plusieurs locuteurs permet un large spectre d'applications. Les solutions techniques doivent être génériques, robustes aux variations environnementales et non-contraignantes pour les utilisateurs. Cette thèse propose d'utiliser des enregistrements distants de conversations spontanées pour répondre à la question "Qui parle, où et quand ?". La vitesse, la généricité et la robustesse des solutions proposées sont évaluées sur des enregistrements variés, incluant plusieurs locuteurs en déplacement, ou bien plusieurs locuteurs assis dans une réunion. Des implémentations optimisées sont proposées. Nous proposons de discrétiser l'espace physique en quelques secteurs, et, pour chaque trame temporelle, de déterminer quels secteurs contiennent des sources acoustiques actives ("Quand ? Où ?"). Nous proposons une interprétation topologique du "beamforming", qui permet à la fois d'évaluer l'énergie acoustique moyenne dans un secteur, et de localiser précisément un locuteur dans un secteur actif. Une de nos contributions va au-delà du contexte des antennes de microphones. Il s'agit d'une méthode générale pour la sélection automatique d'un seuil, sans données d'entraînement. Nous utilisons cette approche dans un système intégré de détection-localisation. Une autre contribution générique est une méthode sans seuil pour le groupage court-terme des positions spatiales de plusieurs locuteurs. Le groupage court-terme permet aussi de détecter où et quand des trajectoires se coupent. Sur des enregistrements de réunions, avec seulement des microphones distants, le groupage court-terme permet une segmentation ayant une performance similaire à celle obtenue avec des microphones placés près de la bouche de chaque locuteur. Les segments résultants sont ensuite eux-mêmes groupés, pour former idéalement un groupe par personne ("Qui ?"), en étendant le Critère d'Information Bayésienne à des modalités multiples. Sur des enregistrements de réunions, la performance du groupage est améliorée de façon significative en fusionnant l'information mel-cepstrale classique avec l'information court-terme donnée par la position spatiale de chaque locuteur. Une analyse détaillée des résultats du groupage suggère, comme direction pour des recherches futures, d'étudier l'effet de la radiation acoustique humaine sur le canal global de transmission, lorsque le locuteur est à plusieurs mètres d'un microphone.