Faculté des sciences et techniques de l'ingénieur STI, Section d'électricité, Institut de traitement des signaux ITS (Laboratoire de traitement des signaux 1 LTS1)

Shadow segmentation and tracking in real-world conditions

Salvador, Elena ; Ebrahimi, Touradj (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2004 ; no 3076.

Ajouter à la liste personnelle
    Summary
    Visual information, in the form of images and video, comes from the interaction of light with objects. Illumination is a fundamental element of visual information. Detecting and interpreting illumination effects is part of our everyday life visual experience. Shading for instance allows us to perceive the three-dimensional nature of objects. Shadows are particularly salient cues for inferring depth information. However, we do not make any conscious or unconscious effort to avoid them as if they were an obstacle when we walk around. Moreover, when humans are asked to describe a picture, they generally omit the presence of illumination effects, such as shadows, shading, and highlights, to give a list of objects and their relative position in the scene. Processing visual information in a way that is close to what the human visual system does, thus being aware of illumination effects, represents a challenging task for computer vision systems. Illumination phenomena interfere in fact with fundamental tasks in image analysis and interpretation applications, such as object extraction and description. On the other hand, illumination conditions are an important element to be considered when creating new and richer visual content that combines objects from different sources, both natural and synthetic. When taken into account, illumination effects can play an important role in achieving realism. Among illumination effects, shadows are often integral part of natural scenes and one of the elements contributing to naturalness of synthetic scenes. In this thesis, the problem of extracting shadows from digital images is discussed. A new analysis method for the segmentation of cast shadows in still and moving images without the need of human supervision is proposed. The problem of separating moving cast shadows from moving objects in image sequences is particularly relevant for an always wider range of applications, ranging from video analysis to video coding, and from video manipulation to interactive environments. Therefore, particular attention has been dedicated to the segmentation of shadows in video. The validity of the proposed approach is however also demonstrated through its application to the detection of cast shadows in still color images. Shadows are a difficult phenomenon to model. Their appearance changes with changes in the appearance of the surface they are cast upon. It is therefore important to exploit multiple constraints derived from the analysis of the spectral, geometric and temporal properties of shadows to develop effective techniques for their extraction. The proposed method combines an analysis of color information and of photometric invariant features to a spatio-temporal verification process. With regards to the use of color information for shadow analysis, a complete picture of the existing solutions is provided, which points out the fundamental assumptions, the adopted color models and the link with research problems such as computational color constancy and color invariance. The proposed spatial verification does not make any assumption about scene geometry nor about object shape. The temporal analysis is based on a novel shadow tracking technique. On the basis of the tracking results, a temporal reliability estimation of shadows is proposed which allows to discard shadows which do not present time coherence. The proposed approach is general and can be applied to a wide class of applications and input data. The proposed cast shadow segmentation method has been evaluated on a number of different video data representing indoor and outdoor real-world environments. The obtained results have confirmed the validity of the approach, in particular its ability to deal with different types of content and its robustness to different physically important independent variables, and have demonstrated the improvement with respect to the state of the art. Examples of application of the proposed shadow segmentation tool to the enhancement of video object segmentation, tracking and description operations, and to video composition, have demonstrated the advantages of a shadow-aware video processing.
    Résumé
    Tout au long de sa vie, l'être humain reçoit un flot continu d'informations visuelles, dues à l'interaction de la lumière et de la matière. L'analyse des phénomènes résultant de cette interaction nous apporte des informations essentielles sur notre environnement. Ainsi, l'ombre, résultat le plus évident, le plus immédiatement perceptible de cette interaction, nous permet de concevoir la notion de profondeur; dans le même ordre d'idée, le fait même que les objets soient ombrés nous permet d'appréhender leur nature tri-dimensionnelle. Bien qu'essentiel, ce type d'information n'est que rarement pris en compte de façon consciente. Ainsi, nul ne fera d'effort particulier pour éviter lesdites ombres, comme si elles constituaient un obstacle à la poursuite de notre route. Plus frappant encore, lors de la description d'une image ou d'une scène, une liste des objets sera immédiatement établie mais il ne sera que rarement fait mention des effets liés à l'illumination que l'on peut y percevoir, tels qu'ombres ou reflets. Pour les systèmes de vision par ordinateur, traiter l'information visuelle d'une façon similaire au système visuel humain, c'est-à-dire en prenant en compte également les effets liées à l'illumination, est une gageure. Ces phénomènes sont en effet plutôt gênants dans le cadre des tâches courantes en analyse d'images, telles que segmentation ou description d'objets. En revanche, considérer ce type d'information est essentiel pour donner à une scène tout son réalisme lorsqu'il s'agit de créer de nouveaux contenus visuels par combinaison d'objets issus de différentes sources, naturelles ou artificielles. Peu nombreuses sont les scènes naturelles dont les ombres sont absentes, et, a contrario, leur absence dans une scène artificielle rend celle-ci fort peu réaliste. Le travail décrit dans cette thèse s'attache à résoudre le problème de l'extraction d'ombres au sein des images numériques. Une méthode de segmentation nouvelle des ombres portées, sans supervision humaine, est proposée, tant pour des images fixes que pour des images animées. Toutefois une attention plus particulière a été portée à ce dernier cas, en raison des applications potentielles croissantes dans lesquelles une telle segmentation constituerait un apport notable, en allant de l'analyse ou de la manipulation du contenu de la vidéo à son codage, en passant par les environnements interactifs. L'ombre est un phénomène difficile à modéliser. Son apparence varie en fonction des surfaces sur lesquelles elle est projetée. Il est donc important d'exploiter les multiples propriétés dérivant des analyses spectrale, géométrique et temporelle des ombres afin de développer des techniques efficaces conduisant à leur extraction. Pour ce faire, la méthode proposée combine une analyse de l'information couleur et de caractéristiques photométriques invariantes, à un processus de vérification spatio-temporel. Un exposé complet des solutions existantes reposant sur l'utilisation de l'information couleur est tracé, précisant les présupposés fondamentaux, les modéles de couleur adoptés, ainsi que les liens avec certains problémes de recherches tels que la constance ou l'invariance de couleur. L'analyse temporelle est pour sa part basée sur une technique de suivi d'ombre inédite grâce à laquelle une estimation de la fiabilité des ombres détectées au cours du temps permet d'écarter les résultats ne présentant pas de cohérence temporelle. Finalement, la vérification spatiale proposée ne se fonde sur aucune hypothèse a priori quant à la géométrie de la scène ou à la forme de l'objet à extraire. Par conséquent, la méthode est générale et peut être utilisée pour un large éventail d'applications, avec des types de données divers. L'évaluation de l'approche s'est faite au travers d'un certain nombre de vidéos représentatives d'environnements réels, aussi bien intérieurs qu'extérieurs. Les résultats obtenus ont confirmé la validité de la méthode, notamment sa capacité à composer avec des contenus variés ainsi que sa robustesse face à différentes variables physiques. Une comparaison à l'état de l'art a permis de mettre en évidence ses apports dans le domaine. Pour finir, l'outil de segmentation d'ombre proposé a été mis en oeuvre dans différents exemples d'applications telles que la composition vidéo, ou l'aide à la segmentation, au suivi et à la description d'objets animés, pour lesquelles l'utilisation de l'information que constitue l'ombre s'est révélé avantageux.