Faculté des sciences

Content-based image retrieval using hand-drawn sketches and local features : a study on visual dissimilarity

Banfi, Folco ; Ingold, Rolf (Dir.)

Thèse de doctorat : Université de Fribourg : 2000 ; no 1312.

Cette thèse traite la problématique de la recherche d’images par rapport au contenu (content-based image retrieval, abrégé CBIR, en anglais) dans une base de données hétérogène. Dans une analyse faite au début de ce travail, nous avons montré que des améliorations étaient possibles dans trois secteurs de cette branche: la forme de la requête, la représentation des images et des... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse traite la problématique de la recherche d’images par rapport au contenu (content-based image retrieval, abrégé CBIR, en anglais) dans une base de données hétérogène. Dans une analyse faite au début de ce travail, nous avons montré que des améliorations étaient possibles dans trois secteurs de cette branche: la forme de la requête, la représentation des images et des requêtes et le calcul de la similarité. Cette analyse nous a poussés à étudier l’utilisabilité d’une méthode pour calculer la dissimilarité entre les requêter produites sous forme d’esquisses par l’utilisateur et les images de la base de données, par rapport à des caractéristiques extraites de régions visuellement homogènes qui ont été segmentées automatiquement. L’approche proposée se différencie de celles qui avaient été analysées en donnant le maximum de liberté à l’utilisateur, qui peut utiliser des esquisses représentant la/les images désirées, en extrayant les caractéristiques visuelles des images de régions qui ont été identifiées comme visuellement homogènes de façon automatique, ainsi qu’en permettant la comparaison des images de la base de données avec des esquisses plus ou moins détailées, grâce a une représentation hierarchique des images et des esquisses. Les esquisses peuvent être incomplètes (càd, peuvent ne pas remplir toute la surface disponible), ce qui resulte en une flexibilité accrue. Accessoirement, la méthode peut être combinée avec les méthodes classique de CBIR, comme l’indexation par mots-clé. Afin de faire des expériences avec cette approche, un prototype nommé SimEstIm a été construit. Dans SimEstIm, l’utilisateur produit une esquisse avec un programme de dessin, puis la soumet au système, qui calcule sa représentation. Lorsqu’elles sont introduites dans la base de donnés, les images subissent le même traitement, qui consiste en deux étapes: segmentation en régions et fusion de régions. Pour permettre la comapraison entre les images et des esquisses plus ou moins détaillées, chaque image est représentée par plusieurs résultats de ségmentation. Les dissimilarités entre les régions de l’esquisse et les régions contenues dans les résultats de segmentation de l’image sont calculée, ce qui permet de calculer une valeur de dissimilarité pour chaque résultat de segmentation. Ces valeurs sont ensuite utilisées pour obtenir une valeur de dissimilarité unique. L’utilisateur peut contrôler le comportement de la mesure de dissimilarité en modifiant les poids liés aux caractéristiques. Des tests ont été conduits avec plusieurs utilisateurs. Les résultats obtenus sont très encourageants et montrent que l’approche proposée peut être implémentée avec succès à l’intérieur d’un système de CBIR.
    Summary
    This thesis addresses the question of content-based image retrieval (CBIR) in heterogeneous databases. In an analysis of the existing CBIR tools that was done at the beginning of this work, we have shown that there was room for improvement in three key areas: query form, image and query representation, and computation of similarity. This analysis led us to studying the usability of a method for computing dissimilarity between user-produced pictorial queries and database images according to features extracted from automatically segmented homogeneous areas. The proposed approach differentiates itself from the analyzed ones by giving maximum freedom to the user by using user-produced pictorial queries (sketches) depicting the wanted image(s), extracts visual information from areas of the images automatically recognized as visually homogeneous and allows the comparison of database images with queries containing various levels of detail, thanks to a hierarchical representation of both database images and queries. Sketches can be incomplete (i.e., they do not need to cover all the available canvas), resulting in extra flexibility. Furthermore, the method can be combined with classical CBIR methods, such as keyword indexing. In order to support our proposal, a prototype CBIR system, SimEstIm, was built. In SimEstIm, the user produces a query image with a paint tool, then submits it to the system, which extracts a query representation. At database population time, database images undergo the same treatment, which consists of two steps: region segmentation and region merging. In order to allow the comparison between database images and sketches containing various levels of detail, several segmentation results are stored for each image. Visual dissimilarity is computed as a combination of dissimilarities between the regions in the query and the regions in the database image's segmentation results, resulting in dissimilarity values for each segmentation result. These results are then used to compute a unique dissimilarity score between query and image. The user can control the behavior of the dissimilarity measure by setting weights associated to each visual feature. Experiments were performed by several users. The results obtained are extremely encouraging, and show that the proposed method can be successfully implemented in a CBIR system.