Faculté des sciences et techniques de l'ingénieur STI, Section de génie électrique et électronique, Institut de traitement des signaux ITS (Laboratoire de traitement des signaux 1 LTS1)

Adaptive video delivery using semantics

Steiger, Olivier ; Ebrahimi, Touradj (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2005 ; no 3236.

Ajouter à la liste personnelle
    Summary
    The diffusion of network appliances such as cellular phones, personal digital assistants and hand-held computers has created the need to personalize the way media content is delivered to the end user. Moreover, recent devices, such as digital radio receivers with graphics displays, and new applications, such as intelligent visual surveillance, require novel forms of video analysis for content adaptation and summarization. To cope with these challenges, we propose an automatic method for the extraction of semantics from video, and we present a framework that exploits these semantics in order to provide adaptive video delivery. First, an algorithm that relies on motion information to extract multiple semantic video objects is proposed. The algorithm operates in two stages. In the first stage, a statistical change detector produces the segmentation of moving objects from the background. This process is robust with regard to camera noise and does not need manual tuning along a sequence or for different sequences. In the second stage, feedbacks between an object partition and a region partition are used to track individual objects along the frames. These interactions allow us to cope with multiple, deformable objects, occlusions, splitting, appearance and disappearance of objects, and complex motion. Subsequently, semantics are used to prioritize visual data in order to improve the performance of adaptive video delivery. The idea behind this approach is to organize the content so that a particular network or device does not inhibit the main content message. Specifically, we propose two new video adaptation strategies. The first strategy combines semantic analysis with a traditional frame-based video encoder. Background simplifications resulting from this approach do not penalize overall quality at low bitrates. The second strategy uses metadata to efficiently encode the main content message. The metadata-based representation of object's shape and motion suffices to convey the meaning and action of a scene when the objects are familiar. The impact of different video adaptation strategies is then quantified with subjective experiments. We ask a panel of human observers to rate the quality of adapted video sequences on a normalized scale. From these results, we further derive an objective quality metric, the semantic peak signal-to-noise ratio (SPSNR), that accounts for different image areas and for their relevance to the observer in order to reflect the focus of attention of the human visual system. At last, we determine the adaptation strategy that provides maximum value for the end user by maximizing the SPSNR for given client resources at the time of delivery. By combining semantic video analysis and adaptive delivery, the solution presented in this dissertation permits the distribution of video in complex media environments and supports a large variety of content-based applications.
    Résumé
    L'utilisation croissante de terminaux tels qu'ordinateurs personnels, téléphones portables et assistants numériques personnels (PDA) a conduit à de nouveaux besoins en matière de distribution personnalisée de données multimédia. Par ailleurs, de récents appareils comme les récepteurs de radio numérique avec affichage d'informations visuelles, et de nouvelles applications telles que la vidéosurveillance, nécessitent des outils d'analyse vidéo avancés afin de permettre l'adaptation et la récapitulation automatique du contenu. Afin de répondre à ces besoins, nous proposons dans cette thèse une méthode automatique d'extraction de données sémantiques, ainsi qu'une structure exploitant ces données afin de permettre la distribution adaptative de contenu vidéo. D'abord, un algorithme basé sur de l'information de mouvement afin d'extraire de multiples objets sémantiques est proposé. Cet algorithme fonctionne en deux étapes. Dans une première étape, un détecteur de mouvement statistique identifie les régions correspondant à des objets animés. Cette approche est insensible au bruit de la caméra et ne requiert pas de réglages particuliers en cours de séquence ou pour différentes séquences. Dans une seconde étape, les interactions entre une représentation basée sur les objets et une autre représentation basée sur des régions homogènes sont exploitées afin de suivre le parcours des objets au cours du temps. Ces interactions nous permettent de faire face à des difficultés telles que la déformation et la séparation d'objets, les occlusions, l'apparition et la disparition d'objets, et les mouvements complexes. Ensuite, ces données sémantiques sont utilisées pour prioriser l'information visuelle afin d'améliorer la distribution adaptative de la vidéo. L'idée sous-jacente à cette approche est d'organiser l'information de telle manière à ce qu'un réseau ou un terminal particuliers n'entravent pas le message prioritaire. Spécifiquement, nous proposons deux nouvelles stratégies d'adaptation. La première stratégie combine l'analyse sémantique à un encodeur vidéo traditionnel. A bas débits, les simplifications des parties d'images non prioritaires résultant de cette approche ne pénalisent pas la qualité globale de l'image. La seconde stratégie emploie des méta-données afin d'encoder le message prioritaire. La représentation ainsi obtenue suffit à communiquer la signification d'une scène lorsque les objets décrits nous sont familiers. L'impact de différentes stratégies d'adaptation est ensuite quantifié à l'aide d'expériences subjectives. Vingt observateurs humains ont évalué la qualité résultant de l'adaptation sur une échelle normalisée. De ces résultats, nous dérivons une mesure de qualité objective, le SPSNR, qui tient compte de l'importance perceptuelle des différentes régions de l'images. Enfin, nous sélectionnons la stratégie qui offre le plus de valeur à l'utilisateur au moment de la distribution en maximisant le SPSNR pour un ensemble de ressources données. Le regroupement proposé d'un mécanisme d'analyse sémantique et d'une structure de distribution adaptative soutient la distribution efficace de données au sein d'environnements multimédia complexes. De plus, notre solution permet une grande variété d'applications basées sur le contenu sémantique.