Faculté des sciences

A study on multimodal document alignment : bridging the gap between textual documents and spoken language

Mekhaldi, Dalila ; Ingold, Rolf (Dir.)

Thèse de doctorat : Université de Fribourg, 2006.

Cette thèse propose une méthode d’alignement multimodal, qui permet d’établir le lien entre les documents statiques et le langage parlé, conformément à leur contenu textuel. Le but étant d’exploiter la structure multi-niveaux des documents statiques pour l’indexation des enregistrements multimédia. Cette nouvelle méthode d’alignement multimodal, largement détaillée dans cette... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse propose une méthode d’alignement multimodal, qui permet d’établir le lien entre les documents statiques et le langage parlé, conformément à leur contenu textuel. Le but étant d’exploiter la structure multi-niveaux des documents statiques pour l’indexation des enregistrements multimédia. Cette nouvelle méthode d’alignement multimodal, largement détaillée dans cette thèse, est appliquée sur deux cas d’études particuliers, les réunions et les conférences. La thèse présente d’abord le nouveau concept d’alignement multimodal de document, en le situant par rapport à des travaux de recherches dans le domaine. Elle présente par la suite l’état de l’art des méthodes d’extraction d’information des documents textuels, et leurs comparaisons. En plus de la présentation détaillée des méthodes d’alignement pour détecter les liens thématiques, les citations et les références entre les documents statiques et la transcription de la parole, plusieurs stratégies permettant de les combiner sont présentées et évaluées. Ces stratégies mettent en évidence la complémentarité de ces différentes méthodes d’alignement. Elles traitent l’incohérence qui peut surgir de par la structure multi-niveaux des documents alignés. Notre méthode d’alignement multimodal a été évaluée sur deux corpus, avec des résultats très satisfaisants. Le premier corpus correspond à des réunions de revue de presse en français, enregistrées dans notre salle de réunion à Fribourg. Le deuxième contient des présentations scientifiques en anglais, enregistrées au CERN. Dans ce dernier cas d’études, la transcription de la parole, les transparents de la présentation et l’article scientifique présenté sont alignés les uns par rapport aux autres. En plus de cette nouvelle méthode d’alignement multimodal de document, un axe de recherches complémentaire a été étudié dans cette thèse: la structuration thématique bimodale des réunions. Basée sur un groupement spatial et temporel des résultats d’alignement thématique, la méthode de segmentation bimodale proposée produit simultanément la segmentation thématique des documents statiques discutés et des dialogues de réunion. Une évaluation de cette nouvelle méthode a montré qu’elle surpasse des approches classiques monomodales, telles que la méthode "TextTiling". Les résultats satisfaisants obtenus dans cette thèse prouvent que notre approche d’alignement multimodal de document est performante. Elle permet de structurer des réunions, et facilite la recherche et la navigation. Ces résultats mettent également en évidence la pertinence des documents pour l’accès à des données multimédia, ainsi que leur rôle dans des applications multimodales.
    Summary
    This thesis proposes a multimodal alignment framework that bridges the gap between static documents and spoken language. This alignment aims mainly at linking static documents with temporal data, in order to exploit the multi-level structure of documents for indexing multimedia recordings of events. This novel multimodal alignment method, largely described in this thesis, is applied on two particular case studies, meetings and lectures. Aligning static documents with the speech transcript of meeting dialogs consists in establishing relationships between them, according to their textual content, at various levels of granularity. The main relationships studied in this thesis are based on shared thematic content, quotations and references made by speakers to the static documents used during the meeting. The thesis first introduces the novel concept of multimodal document alignment by putting it in perspective with related research works. Then, state-of-the-art methods for mining information from textual documents are presented and compared. Further, in addition to the detailed presentation of the alignment methods to detect thematic relationships, quotations and references between static documents and spoken language, several strategies for combining the three alignment types are presented and evaluated. These strategies aim at re-enforcing the cooperation of these distinct methods, and at resolving the inconsistency between the various levels of granularity of the documents being aligned. Our multimodal alignment framework has been applied and evaluated on two corpuses, with very satisfactory results. The first corpus consists in a French press review meetings, recorded in our smart meeting room in Fribourg. The second one contains English scientific presentations, recorded at CERN. In this latter use case, the speech transcript of the speaker, slideshows and the scientific article presented are all aligned together. In addition to this novel multimodal document alignment method, a complementary research axis has been investigated in this thesis: the bimodal thematic structuring of meetings. Based on a spatial and temporal clustering of the thematic alignment results, the proposed bimodal segmentation method generates simultaneously the thematic segmentation of the discussed static documents and the meeting dialogs. An evaluation has shown that the new bimodal method outperforms classical monomodal approaches such as TextTiling. The satisfactory results obtained within this thesis prove the performance of our proposed multimodal document alignment solution, and that it supports meetings structuring, searching and browsing. These results highlight also the document usability for accessing multimedia data and its role in multimodal applications.