Faculté des sciences

A framework for structuring multimedia archives and for browsing efficiently through multimodal links

Rigamonti, Maurizio ; Ingold, Rolf (Dir.) ; Lalanne, Denis (Codir.)

Thèse de doctorat : Université de Fribourg, 2008 ; no 1587.

Cette thèse propose une méthode pour indexer et explorer des archives de documents multimédias, en particulier des enregistrements de réunions, grâce à des documents imprimables et à des liens. Aujourd'hui, les systèmes d'indexation et d'exploration de données multimédias ont quatre limitations majeures. 1) L'indexation requiert des abstractions de haut niveau extraites des documents... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse propose une méthode pour indexer et explorer des archives de documents multimédias, en particulier des enregistrements de réunions, grâce à des documents imprimables et à des liens. Aujourd'hui, les systèmes d'indexation et d'exploration de données multimédias ont quatre limitations majeures. 1) L'indexation requiert des abstractions de haut niveau extraites des documents multimédias. Le problème demeure irrésolu pour des médias riches comme l'image et la vidéo ; 2) les systèmes actuels ne considèrent pas les corrélations entre documents multimédias, qui sont plutôt traités comme des documents isolés ; 3) l'utilisateur est souvent peu impliqué dans le processus d'indexation ; 4) les utilisateurs peuvent chercher des documents spécifiques, mais peuvent rarement explorer une archive sans requête précise. Dans cette thèse, nous proposons une méthodologie sur trois niveaux comme solution à ces limitations. Au premier niveau, les documents imprimables sont annotés avec des informations de haut niveau, tels que le contenu et leurs structures. L'utilisateur peut soit superviser le processus automatique d'analyse, soit éditer de l'information supplémentaire. Au deuxième niveau, des groupes de documents multimédias corrélés, par exemple appartenant à une réunion, sont alignés pour découvrir leurs relations, qui peuvent être représentées avec des liens thématiques, temporels, etc. Les utilisateurs peuvent valider ces liens créés automatiquement. Au troisième niveau, l'information est indexée grâce aux annotations et les liens sont sauvegardés. Cette méthodologie a été intégrée dans un système à l'architecture flexible et extensible. Au premier niveau, un outil d'analyse automatique annote des documents PDF avec leurs informations structurelles. Les annotations peuvent être validées et étendues avec une interface graphique. Au deuxième niveau, des alignements multimédias et lexicaux créent les liens entre tous les types de documents multimédias dans une réunion. Puis, un système d'indexation structure les archives de réunions, en indexant l'information textuelle et en sauvegardant les liens. Enfin, deux navigateurs permettent respectivement de rejouer une réunion et d'explorer une collection entière de documents multimédias. L'intégration d'un système d'indexation et d'exploration pour des archives de réunions a permis de valider notre modèle. De plus, plusieurs évaluations utilisateur ont validé l'utilité des liens et des documents imprimables pour explorer les enregistrements d'une réunion. Deux méthodes d'évaluation ont été ainsi définies, pour évaluer respectivement les modalités individuelles et les composantes d'un navigateur de réunions. La contribution principale de cette thèse est un modèle pour structurer des archives de documents multimédias, validé avec des collections de réunions. Notre modèle est basé sur la liaison automatique entre des documents imprimables et d'autres médias et il intègre l'utilisateur à tous les niveaux. Plusieurs outils ont été intégrés et testés, en validant notre technologie d'indexation et d'exploration d'archives multimédias. Dans le future, le modèle présenté tout au long de cette thèse pourrait être appliqué à d'autres collections de données multimédias, comme par exemple des informations personnelles ou des journaux télévisés.
    Summary
    This thesis proposes a method for indexing and browsing archives of multimedia documents, and in particular meeting recordings, using printable documents and links. Existing systems for indexing and browsing multimedia data have four main limits. First, the indexing requires high-level abstractions extracted from multimedia documents, which is still an unsolved problem for rich media such as images or videos. Second, existing systems do not take into account the correlations between multimedia documents, but manage them as isolated documents. Third, users are only weakly involved within the indexing process. Fourth, users can search specific documents, but rarely can browse an archive. In this thesis, we propose a methodology acting at three levels, as solution to these limits. At the first level, printable documents are annotated with high-level information. The user can either supervise an automatic analysis process or add supplemental information. At the second level, groups of correlated multimedia documents, e.g. belonging to a meeting, are aligned in order to elicit their relationships. The latter can be represented with temporal links, thematic links, etc. The users can validate the links created automatically. At the third level, all multimedia documents are aligned. At this stage the information is indexed thanks to annotations, whereas calculated links are stored. Consequently, this solution enables users to search and browse all types of multimedia documents archives. This methodology has been integrated in a system. Its architecture is flexible and can be easily extended. At the first level, a novel analysis tool automatically annotates PDF documents with their structural information. The annotations can be validated and extended using a graphical user interface. At the second level, we apply multimedia alignments and lexical analysis for creating links between all the multimedia documents of a meeting. A relational indexing system has also been integrated: it structures meeting archives, by indexing textual information and by storing links. Finally, two browsers have been developed for respectively replaying a meeting or browsing an entire collection of multimedia documents. The integration of an indexing and browsing system for meeting archives validates our model. Furthermore, various user evaluations have assessed the usability of links and the usefulness of printable documents for browsing a meeting. For this purpose, two evaluation methods have been set up, for evaluating respectively the individual modalities and the components of a meeting browser. The main contribution of this thesis is a model for structuring archives of multimedia documents, validated with meeting collections. Our model is centered on the transfer of information from printable documents to other multimedia documents and integrates the user at each level. Various tools have also been integrated and evaluated, validating our technology for indexing and browsing multimedia archives. In the future, the model presented in this thesis could be applied to other collections of multimedia data, such as personal information or television news.