Faculté des sciences et techniques de l'ingénieur STI, Section de génie électrique et électronique, Institut de traitement des signaux ITS (Laboratoire de l'IDIAP LIDIAP)

Error handling in multimodal voice-enabled interfaces of tour-guide robots using graphical models

Prodanov, Plamen ; Drygajlo, Andrzej (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3581.

Ajouter à la liste personnelle
    Summary
    Mobile service robots are going to play an increasing role in the society of humans. Voice-enabled interaction with service robots becomes very important, if such robots are to be deployed in real-world environments and accepted by the vast majority of potential human users. The research presented in this thesis addresses the problem of speech recognition integration in an interactive voice-enabled interface of a service robot, in particular a tour-guide robot. The task of a tour-guide robot is to engage visitors to mass exhibitions (users) in dialogue providing the services it is designed for (e.g. exhibit presentations) within a limited time. In managing tour-guide dialogues, extracting the user goal (intention) for requesting a particular service at each dialogue state is the key issue. In mass exhibition conditions speech recognition errors are inevitable because of noisy speech and uncooperative users of robots with no prior experience in robotics. They can jeopardize the user goal identification. Wrongly identified user goals can lead to communication failures. Therefore, to reduce the risk of such failures, methods for detecting and compensating for communication failures in human-robot dialogue are needed. During the short-term interaction with visitors, the interpretation of the user goal at each dialogue state can be improved by combining speech recognition in the speech modality with information from other available robot modalities. The methods presented in this thesis exploit probabilistic models for fusing information from speech and auxiliary modalities of the robot for user goal identification and communication failure detection. To compensate for the detected communication failures we investigate multimodal methods for recovery from communication failures. To model the process of modality fusion, taking into account the uncertainties in the information extracted from each input modality during human-robot interaction, we use the probabilistic framework of Bayesian networks. Bayesian networks are graphical models that represent a joint probability function over a set of random variables. They are used to model the dependencies among variables associated with the user goals, modality related events (e.g. the event of user presence that is inferred from the laser scanner modality of the robot), and observed modality features providing evidence in favor of these modality events. Bayesian networks are used to calculate posterior probabilities over the possible user goals at each dialogue state. These probabilities serve as a base in deciding if the user goal is valid, i.e. if it can be mapped into a tour-guide service (e.g. exhibit presentation) or is undefined – signaling a possible communication failure. The Bayesian network can be also used to elicit probabilities over the modality events revealing information about the possible cause for a communication failure. Introducing new user goal aspects (e.g. new modality events and related features) that provide auxiliary information for detecting communication failures makes the design process cumbersome, calling for a systematic approach in the Bayesian network modelling. Generally, introducing new variables for user goal identification in the Bayesian networks can lead to complex and computationally expensive models. In order to make the design process more systematic and modular, we adapt principles from the theory of grounding in human communication. When people communicate, they resolve understanding problems in a collaborative joint effort of providing evidence of common shared knowledge (grounding). We use Bayesian network topologies, tailored to limited computational resources, to model a state-based grounding model fusing information from three different input modalities (laser, video and speech) to infer possible grounding states. These grounding states are associated with modality events showing if the user is present in range for communication, if the user is attending to the interaction, whether the speech modality is reliable, and if the user goal is valid. The state-based grounding model is used to compute probabilities that intermediary grounding states have been reached. This serves as a base for detecting if the the user has reached the final grounding state, or wether a repair dialogue sequence is needed. In the case of a repair dialogue sequence, the tour-guide robot can exploit the multiple available modalities along with speech. For example, if the user has failed to reach the grounding state related to her/his presence in range for communication, the robot can use its move modality to search and attract the attention of the visitors. In the case when speech recognition is detected to be unreliable, the robot can offer the alternative use of the buttons modality in the repair sequence. Given the probability of each grounding state, and the dialogue sequence that can be executed in the next dialogue state, a tour-guide robot has different preferences on the possible dialogue continuation. If the possible dialogue sequences at each dialogue state are defined as actions, the introduced principle of maximum expected utility (MEU) provides an explicit way of action selection, based on the action utility, given the evidence about the user goal at each dialogue state. Decision networks, constructed as graphical models based on Bayesian networks are proposed to perform MEU-based decisions, incorporating the utility of the actions to be chosen at each dialogue state by the tour-guide robot. These action utilities are defined taking into account the tour-guide task requirements. The proposed graphical models for user goal identification and dialogue error handling in human-robot dialogue are evaluated in experiments with multimodal data. These data were collected during the operation of the tour-guide robot RoboX at the Autonomous System Lab of EPFL and at the Swiss National Exhibition in 2002 (Expo.02). The evaluation experiments use component and system level metrics for technical (objective) and user-based (subjective) evaluation. On the component level, the technical evaluation is done by calculating accuracies, as objective measures of the performance of the grounding model, and the resulting performance of the user goal identification in dialogue. The benefit of the proposed error handling framework is demonstrated comparing the accuracy of a baseline interactive system, employing only speech recognition for user goal identification, and a system equipped with multimodal grounding models for error handling.
    Résumé
    Les robots de service mobiles seront amenés à jouer un rôle de plus en plus important pour la société dans le futur. Si de tels robots doivent être déployés dans des environnements réels et acceptés par la majorité des utilisateurs humains potentiels, l'interaction vocale devient très importante. La recherche présentée dans cette thèse a trait au problème de l'intégration de la reconnaissance de la parole dans l'interface vocale interactive d'un robot de service, et en particulier d'un guide robotique. La tâche d'un robot guide est d'engager un dialogue avec des visiteurs dans des grandes expositions, pour fournir le service approprié (par exemple montrer des parties de l'exposition) en un temps limité. Le point crucial lors de la gestion des dialogues du guide est l'extraction du but de l'utilisateur, autrement dit son intention de demander un service particulier dans chaque état du dialogue. Dans des conditions de grande exposition, les erreurs de reconnaissance vocale causées par le bruit ambient et l'attitude non-coopérative des utilisateurs n'ayant pas d'expérience préablable en robotique sont inévitables. Elles peuvent rendre difficile l'identification du but de l'utilisateur, ce qui peut mener à des échecs de communication. Pour réduire le risque de tels échecs, des méthodes pour détecter et compenser les échecs de communications dans les dialogues homme-robot sont nécéssaires. Durant les intéractions à court terme avec les visiteurs, l'interprétation du but de l'utilisateur à chaque état du dialogue peut être amélioré en combinant la reconnaissance vocale de la modalité parole avec de l'information d'autres modalités du robot. Les méthodes présentées dans cette thèse utilisent des modèles probabilistes pour effectuer la fusion de l'information provenant de la parole et de modalités auxilaires du robot afin d'identifier le but de l'utilisateur et de détecter les échecs de communication. Nous étudions l'utilisation de méthodes multimodales pour la compensation des échecs de communications détectés. Nous utilisons le cadre probabiliste des réseaux bayésiens pour modéliser le processus de fusion de modalités tout en prenant en compte les incertitudes quant à l'information extraite de chaque modalité d'entrée durant l'interaction homme-robot. Les réseaux bayésiens sont des modèles graphiques qui représentent un fonction de probabilité jointe sur un ensemble de variables aléatoires. Ils sont utilisés pour modéliser les dépendences entre les variables associées avec les buts de l'utilisateur, les événements reliés aux modalités (par exemple la présence d'un utilisateur inférée depuis le scanner laser), et les paramètres observés des modalités fournissant des indices en faveur de ces événements. Les réseaux de Bayes sont utilisés pour calculer des probabilités a posteriori sur les buts d'utilisateur possibles dans chaque état du dialogue. Ces probabilités servent comme base pour décider si le but de l'utilisateur est valide (c'est-à-dire qu'on peut trouver une correspondance avec un service de guide, par exemple montrer la partie suivante de l'exposition), ou non défini, ce qui signale un possible échec de communication. Le réseau bayésien peut aussi être utilisé pour obtenir des probabilités reliées aux événements de modalité, révélant ainsi les causes possibles pour les échecs de communication. L'introduction de nouvelles fonctionnalités relatives à l'utilisateur (de nouvelles modalités et les attributions s'y rattachant par exemple) apporte des informations auxiliaires, permettant ainsi de palier à des échecs de communication. Le système résultant invoque, de par sa complexité, une approche systématique reposant sur une modélisation par réseaux bayésiens. L'introduction dans de tels réseaux de nouvelles variables visant à permettre l'identification de l'utilisateur conduit généralement à des modèles complexes, et induit par conséquent des coûts de calculs élevés. Afin de définir un processus tout à la fois plus systématique et modulable, nous avons adapté des principes issus de la théorie des rudiments en communication humaine. Lorsque des personnes communiquent, elles résolvent des problèmes éventuels de compréhension par des efforts joints visant à atteindre un socle de connaissances communes (rudiments). Nous utilisons des topologies de type réseaux bayésiens, adaptés à des ressources de calcul limitées, pour définir un modèle d'états rudimentaires fusionnant les informations issues de trois modalités d'entrée (laser, vidéo et parole), afin de déduire des états rudimentaires possibles. Ces derniers sont associés à des évènements modaux évaluant si l'utilisateur est à portée de communication, s'il prend part à l'interaction, si la modalité de parole est fiable, et si la requête de l'utilisateur est valide. Le modèle d'état rudimentaire est utilisé afin de calculer les probabilités d'avoir atteint des états rudimentaires intermédiaires, ceci afin de déterminer si l'utilisateur a atteint l'état rudimentaire final ou si une séquence de dialogue réparatif est nécessaire. Dans ce cas, le robot guide peut exploiter les multiples modalités disponibles allant de pair avec la parole. Par exemple, si l'utilisateur n'est pas parvenu à atteindre l'état rudimentaire correspondant à une mise à portée de communication, le robot peut utiliser sa capacité de déplacement pour chercher à attirer l'attention du visiteur. Dans le cas où la reconnaissance de parole est considérée comme non fiable, le robot peut proposer comme alternative l'utilisation de l'interface tactile dans la séquence de réparation. Etant donné la probabilité de chaque état rudimentaire et la séquence de dialogue pouvant être exécutée dans le prochain état de dialogue, un robot guide dispose de différentes possibilités quant à la continuation possible du dialogue. Si les séquences de dialogues possibles en chaque état sont définies comme des actions, il est possible d'introduire, comme moyen explicite de sélection d'action, le principe d'utilité maximum espérée (MEU), reposant sur l'utilité de l'action en fonction du but de l'utilisateur. Afin de prendre des décisions basées sur le MEU, des réseaux de décision sont proposés. Ces réseaux sont construits comme des modèles graphiques basés sur de réseaux de Bayes, et permettent d'incorporer l'utilité des actions à choisir par le robot guide à chaque état de dialogue. Ces utilités d'action sont définies compte tenu des tâches requises par la visite guidée. Les modèles graphiques proposés pour la tâche d'identification du but de l'utilisateur et la gestion des erreurs de dialogue lors de dialogues homme-robot sont évalués à partir d'expériences sur des données multimodales. Ces données ont été collectées durant le fonctionnement du robot guide RoboX au Laboratoire des Systèmes Autonomes de l'EPFL ainsi qu'à l'Exposition Nationale Suisse de 2002 (Expo.02). Les expériences évaluatives reposent sur l'utilisation de métriques au niveau des composants et des systèmes, et sont constituées tout à la fois d'évaluations techniques (objectives) et faisant appel à l'utilisateur (subjectives). Au niveau des composants, la technique d'évaluation repose sur le calcul des précisions comme mesures objectives de la performance du modèle rudimentaire, ainsi que sur les performances lors de la tâche d'identification de l'utilisateur, à chaque état du dialogue. L'avantage apporté par le gestionnaire d'erreur proposé est démontré à travers une comparaison entre la précision d'un système de base n'utilisant qu'un système de reconnaissance pour la tâche d'identification de l'utilisateur, et celle d'un système équipé de l'un des modèles rudimentaires multimodaux permettant la gestion des erreurs.