Faculté des sciences

Frameworks, description languages and fusion engines for multimodal interactive systems

Dumas, Bruno ; Lalanne, Denis (Dir.)

Thèse de doctorat : Université de Fribourg, 2010 ; no. 1695.

Le domaine de l’interaction multimodale a pris beaucoup d’importance lors de cette dernière décennie, du fait de la création et de la mise sur le marché de nombreuses interfaces novatrices, ainsi que de l’évolution de domaines de recherche tels que la reconnaissance vocale. Cependant, la fusion et la combinaison de modalités n’ont pas évolué avec la même vigueur, aboutissant à... Plus

Ajouter à la liste personnelle
    Résumé
    Le domaine de l’interaction multimodale a pris beaucoup d’importance lors de cette dernière décennie, du fait de la création et de la mise sur le marché de nombreuses interfaces novatrices, ainsi que de l’évolution de domaines de recherche tels que la reconnaissance vocale. Cependant, la fusion et la combinaison de modalités n’ont pas évolué avec la même vigueur, aboutissant à un fossé entre l’utilisation de modalités d’entrée et les différentes possibilités de les combiner. Cette thèse de doctorat s’attache à réduire ce fossé entre les dispositifs d’interactions à disposition et la fusion de leurs données. Dans cette recherche, la fusion d’inputs multimodaux est approchée dans sa globalité : en premier lieu, sous l’angle de l’architecture d’un système multimodal dans son ensemble, puis sous l’angle de la modélisation de la fusion multimodale et, enfin, sous un angle plus algorithmique. Le premier angle, architectural, s’intéresse aux exigences nécessaires pour une intégration profitable de moteurs de fusion, en utilisant les critères d’utilisabilité et d’expressivité pour caractériser les qualités et les inconvénients de différentes architectures. Trois différentes architectures pour la création d’interfaces multimodales sont ensuite étudiées. Le framework HephaisTK, qui a servi de base d’étude expérimentale pour ce travail de thèse, est finalement décrit. Le deuxième angle, la modélisation du dialogue, présente huit directives pour la création de langages de modélisation du dialogue multimodal et propose le langage SMUIML comme exemple d’un langage suivant ces directives. Le troisième angle, algorithmique, étudie la fusion multimodale proprement dite par le biais de l’implémentation de deux algorithmes de fusion : d’abord, un algorithme « meaning frames », ensuite un algorithme basé sur les modèles de Markov cachés (HMM). Une évaluation des performances de ces deux algorithmes à l’aide d’un outil de mesure intégré est présentée en dernière analyse. Par l’étude à la fois théorique et expérimentale de ces trois axes – architectural, modèle, algorithmique –, les différentes problématiques de la fusion multimodale ont été délimitées et clarifiées. Ces nouvelles connaissances établies, ainsi que la plate-forme logicielle implémentée dans le cadre de ce travail de thèse, devraient permettre d’étudier à l’avenir deux thèmes importants à nos yeux : la gestion des erreurs ainsi que l’adaptation à l’utilisateur.
    Summary
    The field of multimodal interaction grew during the last decade, as a consequence of the advent of innovative input interfaces, as well as the development of research fields such as speech recognition. However, multimodal fusion and combination did not evolve at the same rate, which lead to a chasm between the use of input modalities and the different possibilities of combining them. This PhD thesis seeks to reduce the chasm between interaction means and fusion of their data. Fusion of multimodal input is approached in a global way in this research: first, from the point of view of the architecture of a multimodal system as a whole, then, from the point of view of multimodal dialog modeling, and finally from an algorithmic point of view. The architectural angle focuses on necessary features of an architecture to allow beneficial integration of a fusion engine, using usability and expressivity as attributes to characterize qualities and drawbacks of different architectures. Three different architectures targeting the creation of multimodal interfaces are subsequently studied. The HephaisTK framework, which served as the experimental foundation for this thesis work, is described in detail. The second angle, dialog modeling oriented, presents eight guidelines for creation of multimodal dialog modeling languages, then proposes the SMUIML language as an example of a language following those guidelines. Finally, the algorithmic angle studies multimodal fusion itself through the implementation of two fusion algorithms: an algorithm based on meaning frames and an algorithm based on hidden Markov models (HMMs). An evaluation of the performances of those two algorithms with the help of a proposed integrated benchmarking tool is also presented. Through theoretical as well as practical study of these three angles – architecture, modeling, algorithms – the different issues of multimodal fusion were defined and clarified. This newly elucidated knowledge combined with the software framework implemented in the scope of this thesis work, should allow further research on two subjects we consider important to study in the future: error management, and adaptation to user.