Faculté des lettres

Investigating attentional mechanisms underlying feature integration : evidence from within- and cross-modality behavioral and eye movement studies

Chavaillaz, Alain ; Krummenacher, Joseph (Dir.) ; Kerzel, Dirk (Codir.)

Thèse de doctorat : Université de Fribourg, 2010.

Les expériences exposées dans le présent travail visent à une meilleure compréhension des mécanismes temporels et spatiaux de l’intégration des caractéristiques dans des conditions de recherche, tant à l’intérieur d’une même modalité qu’entre les différentes modalités sensorielles. Un autre thème est l’influence de la pratique sur l’intégration des caractéristiques... Plus

Ajouter à la liste personnelle
    Résumé
    Les expériences exposées dans le présent travail visent à une meilleure compréhension des mécanismes temporels et spatiaux de l’intégration des caractéristiques dans des conditions de recherche, tant à l’intérieur d’une même modalité qu’entre les différentes modalités sensorielles. Un autre thème est l’influence de la pratique sur l’intégration des caractéristiques visuelles. Finalement, une série d’expériences ont investigué la contribution respective des caractéristiques visuelles dans l’apprentissage de la relation entre les caractéristiques des objets et leur configuration spatiale dans une scène de recherche. La recherche, et tout particulièrement la recherche visuelle, fait partie intégrante de la vie quotidienne, comme chercher ses clés ou son téléphone portable sur son bureau. En règle générale, ces objets sont rapidement découverts car, la plupart du temps, ils diffèrent de façon claire des autres objets qui les entourent car ils sautent littéralement aux yeux (pop out en anglais). Un stylo rouge est facilement détectable au milieu d’un plumier contenant des stylos bleus, alors que la Tour de Pise se distingue des bâtiments avoisinants entre autres par son orientation particulière et un animal tapi dans la jungle devient visible lors qu’il se met à bouger. Un objet présentant une caractéristique particulière, comme une couleur, une orientation ou un mouvement qui lui est propre, est donc facilement détecté parmi d’autres objets présentant une certaine homogénéité (p. ex., Treisman, 1988). Cependant, lorsque les objets entourant l’objet-cible deviennent plus hétérogènes, la recherche devient plus difficile. Treisman et collaborateurs (p. ex., Treisman & Gelade, 1980) ont observé qu’un objet-cible se trouvant parmi d’autres objets homogènes (p. ex., une barre rouge et horizontal au milieu de barres vertes et verticales) saute toujours aux yeux, indépendamment du nombre de d’objets distracteurs l’accompagnant. Plus formellement, lorsque la cible diffère des distracteurs par une caractéristique lui étant propre, ce type de recherche visuelle prend le nom de tâche de détection de caractéristiques (feature detection task). Néanmoins, lorsque la cible se trouve parmi des distracteurs hétérogènes partageant des caractéristiques avec l’objet-cible (p. ex., la même barre rouge et horizontale au milieu de barres rouges et verticales et de barres vertes et horizontale), son temps de détection augmente en fonction du nombre de distracteurs qui l’entourent. Parce que la cible est définie par une combinaison unique de caractéristiques, ce type de recherche a été appelé recherche de conjonction de caractéristiques (feature conjunction task). Ce qui distingue les deux tâches est la saillance (ou contraste) relative de la cible par rapport aux distracteurs. Une cible peut être plus facilement détectée au milieu des distracteurs homogènes d’une tâche de détection de caractéristiques que parmi les distracteurs hétérogènes d’une tâche de conjonction car le contraste (ou saillance) entre la cible et les distracteurs est plus important dans la première tâche que dans la seconde. En se basant sur ces observations, Wolfe (1994) proposa un modèle, appelé Recherche Guidée (Guided Search), dans lequel l’attention est guidée par la saillance de la scène visuelle. Chaque caractéristique, comme la couleur, l’orientation, le mouvement, ou la taille, est traitée par des détecteurs arrangés de façon topographique qui analysent la différence locale entre les valeurs de chaque caractéristique sur l’ensemble de la scène visuelle et génèrent des signaux locaux de saillance qui forment ensemble une « carte » représentant les différents niveaux de saillance de la scène visuelle pour chaque caractéristique (saliency map). Ces différentes cartes de saillance spécifiques sont par la suite sommées sur une carte de saillance générale (overall saliency map). A ce niveau, la scène visuelle n’est plus représentée qu’en termes d’intensité des signaux de saillance, comme les courbes de niveau d’une carte topographique. Finalement, l’attention est guidée vers le plus haut pic de saillance sur la carte de saillance générale. Dans une tâche de détection de caractéristiques, la cible est l’élément le plus saillant car elle présente une caractéristique qui lui est propre. En revanche, dans une tâche de conjonction de caractéristiques où cible et distracteur partagent certaines caractéristiques, le pic de saillance générée par la cible est masqué parmi les pics de saillance des distracteurs, rendant cette dernière moins visible que dans une tâche de détection de caractéristiques et obligeant l’observateur à scanner l’écran (display) pour la trouver. La saillance de la cible module donc l’efficacité de la recherche. Une cible qui est relativement moins saillante qu’une autre, par exemple dans une tâche de conjonction, résulte en une recherche moins efficace. Alors que nous accomplissons la plupart du temps des tâches de type conjonctive, il existe des situations, réelles ou artificielles, dans lesquelles les objetscibles sont sur-définis par rapport à leur contexte, comme par exemple les panneaux de signalisation qui sont conçus pour être très facilement repérés au milieu de leur environnement. Dans une recherche visuelle, de telles conditions sont atteintes par l’implication de cibles définies de façon redondante qui diffèrent des distracteurs par plus d’une caractéristique, comme une barre rouge et horizontale parmi des barres vertes et verticales. Mais comment sont traitées les multiples caractéristiques d’une cible redondante ? L’analyse des temps de réaction permet de distinguer trois mécanismes de traitement des caractéristiques potentiels. Malgré une architecture différente, chaque modèle suppose que chaque caractéristique est traitée par un module spécifique. Le premier modèle, appelé traitement sériel (p. ex., Grossberg, Mingolla & Ross, 1994), suggère que ces modules de traitement spécifique à chaque caractéristique sont montés les un derrière les autres, comme les perles d’un collier. Ce type d’organisation implique que la cible ne peut être détectée qu’après le traitement de la dernière caractéristique. Cependant, ce modèle de traitement ne peut pas expliquer les résultats d’études récentes conduites par Krummenacher et collègues (Krummenacher et al., 2001, 2002a; Töllner et al., sous presse; Zehetleitner et al., 2009). En effet, ces derniers ont démontré qu’une cible redondante se différenciant des distracteurs par deux caractéristiques est plus rapidement détectée qu’une cible ne se distinguant des distracteurs que par une seule caractéristique. Cette diminution des temps de réaction pour les cibles définies de façon redondante a été désignée sous le terme de gains de redondance (redundancy gains). Deux modèles ont été proposés pour expliquer cette réaction accélérée pour les cibles définies de façon redondante. Le premier d’entre eux suppose que les gains de redondance sont dûs à une facilitation statistique résultant d’une course entre des caractéristiques traitées de façon indépendante pour déclencher une réponse reflétant la détection de la cible (modèle de la course, ou race model; Raab, 1962). Le second modèle postule quant à lui que les signaux indépendants alimentent un module commun qui déclenche la réponse. Contrairement au modèle de la course, les deux signaux contribuent à l’activation de la réponse, d’où le terme de modèle de traitement « parallèle coactif » (Miller, 1982). Bien que les deux modèles supposent que les signaux des caractéristiques sont traités de façon indépendante et en parallèle, ils divergent sur les mécanismes déclenchant la réponse. Le modèle de la course parallèle suppose que la réponse indiquant la présence de la cible est déclenchée lorsque l’un des signaux dépasse un seuil requis pour déclencher la réponse. Partant du principe que les distributions des temps de réaction pour les signaux caractérisant les cibles définies par une seule caractéristique se chevauchent et que chaque signal peut gagner la course dans certains essais, les temps de réaction pour les cibles redondantes sont en moyenne plus rapides qu’attendu sur la base des distributions des temps de réaction pour les cibles définies par une seule caractéristique. Miller (1982) suggère quant à lui que la réponse est générée à partir de la sommation de l’activation de traitement des deux signaux. Lorsque cette accumulation d’activation excède une certaine quantité, la réponse est déclenchée. Miller (1982, 1986) proposa une procédure permettant de différencier le modèle de traitement parallèle co-actif du modèle de la course, appelée inégalité du modèle de la course (Race Model Inequality, ou RMI). Il prouva que tous les modèles postulant un traitement strictement parallèle des caractéristiques, comme le modèle de la course (Raab, 1962), ne peuvent pas violer cette inégalité. Une violation de cette inégalité témoigne donc d’un modèle de traitement parallèle coactif. Utilisant cette procédure, Krummenacher et al. (p. ex., Krummenacher et al., 2001, 2002a, b) démontrèrent que les gains de redondance pour les caractéristiques visuelles sont générés selon un modèle de traitement parallèle coactif, c’est à dire que l’activation cumulée des deux caractéristiques est responsable du déclenchement de la réponse. En d’autres termes, la détection de la cible semble provenir de l’intégration des différentes caractéristiques visuelles.
    Summary
    The present work is aimed at contributing to a better understanding of the spatial and temporal mechanisms underlying integration of feature signals within and between sensory modalities under search conditions. Furthermore, it investigates the respective contribution of feature signals in the elaboration of memory for the search context in a complex visual search task. Chapter 2 presents an introduction to selection and integration of information coming from one or more sensory modality, and discusses recent research on the topic. Chapter 3 concerns the temporal organization of visual feature integration (color, orientation, and motion), somewhat neglected by current cognitive models focusing primarily on spatial mechanisms of feature integration. To evaluate the relative temporal contribution of feature signals defining the to-be-found object, an adapted version of the visual search paradigm (in which an odd object has to be detected among distractor objects) involving redundantly defined items (i.e., objects differing from their neighbors in more than one feature, e.g., a red vertical bar among green horizontal bars) was used, in which all items are identical at the search display onset and the target item is revealed after feature changes of one of the searched items; feature changes are separated by variable time intervals. This procedure allows using the race model inequality (RMI; Miller, 1986) to differentiate two different integration models. Both assume that feature signals are processed independently and in parallel, but diverge concerning the mechanisms that generate the response associated to the target detection. A first model postulates that redundancy gains, referring to the faster detection of redundantly defined targets (compared to singly defined targets), result from a parallel race of independent signals, whose winner triggers the response (race model; Raab, 1962), whereas an alternative account assumes that both features contribute to the response triggering (parallel co-active model; Miller, 1982). Miller demonstrates that all models postulating a strict parallel processing between features, as the race model (Raab), do not violate the race model inequality. Consequently, a violation of this inequality speaks in favor of a parallel co-active processing of features. Results of experiments described in Chapter 3 demonstrate that visual features are processed according to a parallel co-active model. Moreover the optimal integration of different pairs of visual features (e.g., color and orientation, motion and color, or motion and orientation) does not necessarily occur when both features change simultaneously, suggesting that different visual features have not the same processing latency. Further, relative processing times of visual features vary according to the required depth of processing (e.g., in feature detection vs. feature identification tasks). Chapter 4 addresses the same issue at a multisensory level and reveals that visuo-auditory signals are also processed according to a parallel co-active model. Furthermore, visual signals (color) have to change simultaneously or between 20 to 40 ms before auditory signals (frequency) to be optimally integrated. This finding is in line with recent behavioral and physiological results of a shorter processing latency for auditory than visual signals. According to results from Chapter 3 and 4, the fact that both RMI violations are observed in both uni- and multisensory paradigms let assume that features, independently of their sensory origin, are processed in a parallel co-active way. Chapter 5 focuses on the spatial component of visual feature integration by analyzing eye movements in a feature detection task involving redundantly defined targets. Results support the hypothesis that the control mechanism of the oculomotor system can be based on a spatial saliency signal that seems to be governed by the same dimension-based mechanisms proposed to explain the orienting of spatial attention. According to Wolfe’s (1994) Guided Search model, the summation of dimensional saliency signals into an overall saliency representation of dimensionally redundantly defined targets generates a higher saliency peak than a target defined on a single dimension. If the saliency amplitude is correlated to the time needed by eyes to be directed toward the targets, a redundantly defined target should elicit saccades faster than a singly defined target. The results confirmed this hypothesis as saccade latencies for dimensionally redundantly defined targets were shorter than for dimensionally singly defined targets. Furthermore, RMI violations were observed for saccadic latencies, demonstrating that both feature signals contribute to the triggering of the saccade. Results were extended by further experiments showing that only a spatial overlap of both features in the redundant target condition (i.e., a single rather than two separate target items) expedites saccadic latencies. When both features were physically separated redundancy gains for saccadic latencies were abolished. In Chapter 6 the effect of practice on feature integration was investigated by examining variations of the magnitude of RMI violations throughout four experimental sessions in a singleton feature detection task involving color and orientation targets. Results show that participants need some familiarity with the task for clear evidence of parallel co-active processing to emerge.