Faculté des sciences

A visual signature-based identification method of low-resolution document images and its exploitation to automate indexing of multimodal recordings

Behera, Ardhendu ; Ingold, Rolf (Dir.)

Thèse de doctorat : Université de Fribourg, 2006 ; no. 1529.

Cette thèse porte sur le développement d’un système complet pour l’indexation automatique, centrée sur le document (DocMIR), de données multimédias issues d’environnements multimodaux tels que réunions, conférences, etc. Tant des méthodes de traitement d’images que de segmentation vidéo et d’analyse de document sont utilisées pour mettre en relation les données temporelles... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse porte sur le développement d’un système complet pour l’indexation automatique, centrée sur le document (DocMIR), de données multimédias issues d’environnements multimodaux tels que réunions, conférences, etc. Tant des méthodes de traitement d’images que de segmentation vidéo et d’analyse de document sont utilisées pour mettre en relation les données temporelles de réunions avec les documents. Le système proposé s’articule autour de deux tâches principales : une segmentation vidéo basée sur le document et l’identification d’images de documents à basse résolution. Plusieurs heures de données audio-visuelles doivent être fragmentées en segments de taille raisonnable afin de faciliter une navigation ultérieure. Durant une présentation, les documents projetés sont souvent capturés en tant que flux vidéo et peuvent être utilisés comme des pointeurs sémantiques pertinents, du fait qu’ils apparaissent à un instant spécifique, durent un temps déterminé et résument le discours courant de l’orateur. Les approches existantes ne sont pas applicables dans le cas où les vidéos proviennent d’appareils à basse résolution tels que des webcams. Pour remédier à ces inconvénients, la technique de segmentation proposée considère la stabilité plutôt que le changement dans les séquences vidéo et ne nécessite en outre aucune identification du document pour confirmer le changement. Par ailleurs, une identification des documents à basse résolution est requise pour lier les documents électroniques originaux aux données multimédias segmentées. La méthode proposée utilise une signature visuelle du document composée des signatures de couleur et de mise en page. Les caractéristiques visuelles telles que les couleurs, leur distribution spatiale et la mise en page sont extraites puis structurées hiérarchiquement dans la signature. Cette approche permet une mise en correspondance rapide et efficace, afin de répondre aux besoins d’applications réelles. Elle résout par ailleurs les problèmes de faible résolution de l’image, des arrière-plans bruités et texturés ainsi que des conditions de luminosité variables de l’environnement de capture. Les méthodes de comparaison de la signature appliquent une fusion multi-niveaux séquentielle, linéaire ou non-linéaire des diverses caractéristiques visuelles. Cette nouvelle méthode d’identification a été comparée aux approches classiques au moyen de données réelles enregistrées lors de réunions et conférences, et s’est montrée significativement plus performante. Les performances des différentes techniques développées dans cette thèse prouvent l’utilité des documents en tant que modalité additionnelle et interfaces naturelles pour interagir avec des données multimédias capturées dans des environnements multimodaux.
    Summary
    This thesis investigates methods for building an efficient application system for the document-based automatic indexing and retrieval (DocMIR) of multimedia data captured from multimodal environments such as meetings, conferences, etc. Both empirical image processing, video segmentation methods and document analysis approaches are studied to bridge the gap between temporal data and static information. The proposed system focuses on two major tasks: document-based video segmentation and low-resolution document image identification. The captured audio-visual data of several hours should be fragmented into reasonable distinct smaller segments in order to provide useful access points. During a presentation, projected documents are often captured as a video stream and can be used as meaningful semantic pointers because they appear at specific time, remain in visual focus for a definite duration and summarize presenter’s discourse at that time. The existing approaches for video segmentation are not applicable in this scenario since videos are captured from low-resolution devices, such as web-cams. In order to overcome these drawbacks, the proposed feature-based segmentation technique considers the stability rather than changes in video sequences. The technique does not require any document identification methods to confirm the change. The identification of low-resolution documents is also required to link original electronic documents with the temporally segmented captured multimedia data. The proposed identification method uses a Visual Signature consisting of Layout Signature and Color Signature. This signature-based approach is considered for fast and efficient matching in order to fulfill the needs of real-time applications. It also overcomes the problem of poor resolution, noisy, complex backgrounds and varying lighting conditions of the capture environment. The visual features such as colors, their spatial distribution and layout features are extracted and structured hierarchically to form the Color Signature and Layout Signature, respectively. The matching of signature is based on both, sequential as well as multi-level linear and non-linear fusion of various visual features. The performance of the proposed technique has been compared with existing approaches using real data recorded from meetings and conferences and found to be significantly better. The high-quality performances of the above-mentioned techniques prove the usefulness of documents as an additional modality and natural interface, to interact with multimedia data captured from multimodal environments.