Bases électrophysiologiques de la sémantique des objets

Potentiels évoqués et traitement sémantique des mots et des images

Reconnaître les objets qui nous entourent est une activité indispensable de la vie quotidienne. Nos connaissances sur l’objet doivent pouvoir être évoquées, que l’objet soit présenté physiquement ou que son nom soit énoncé. L’accès aux connaissances sur l’objet nécessite l’activation d’informations en mémoire sémantique avec des particularités d’accès et/ou d’organisation des représentations sémantiques en fonction de la modalité de présentation. Pour appréhender l’organisation du système sémantique, de très nombreuses études comportementales ont été consacrées à la comparaison entre le traitement des mots et le traitement des images soulignant à la fois les similitudes et les différences entre ces deux modalités. Toutefois, une question fondamentale demeure au centre des débats : « le système sémantique est-il fractionné en fonction de la modalité de présentation des informations ou bien est-il amodal ? » [ 1, 2]. Ces dernières années, l’utilisation des potentiels évoqués (PE) cognitifs s’est révélée particulièrement riche d’informations dans ce domaine.

Potentiels évoqués et traitement sémantique des mots et des images

Potentiels évoqués et traitement sémantique des mots et des images

La technique des PE est l’un des meilleurs moyens de mettre en évidence des modifications minimes et transitoires de l’activité cérébrale en réponse à des stimulations sensorielles ; de plus, son usage est simple et non invasif. Grâce à leur excellente résolution temporelle, les PE permettent d’étudier le décours temporel de l’activité électrique cérébrale correspondant à différents types d’opérations et/ou de traitements cognitifs tels que les traitements attentionnels ou mnésiques. Ils peuvent ainsi constituer une source d’information essentielle en ce qui concerne les mécanismes et les structures en jeu dans le traitement sémantique et, en particulier, pour ce qui recouvre l’organisation des connaissances sémantiques. Ainsi en est-il des composantes N400 et N300 qui, respectivement, interviennent dans le traitement sémantique des mots et des images.

Composante N400

C’est en étudiant la réponse évoquée par des mots sémantiquement discordants dans le contexte d’une phrase que Kutas et Hillyard [ 3] ont mis en évidence la composante N400. Ces auteurs ont présenté des phrases mot à mot se terminant soit par un mot concordant prévisible (exemple, c’était son premier jour de travail), soit par un mot discordant (exemple, elle tartine son pain avec du chaussure). Les auteurs faisaient l’hypothèse que la différence entre ces deux conditions se traduirait par une variation de l’amplitude de la composante P300. En fait, c’est une composante négative prédominant dans les régions centro-pariétales droites qui est évoquée par les mots discordants avec un maximum d’amplitude vers 400 ms après la présentation du mot cible. Ces auteurs interprètent la N400 comme le reflet du traitement supplémentaire nécessaire pour intégrer une information sémantique anormale dans un contexte linguistique. La différence d’amplitude observée entre la réponse évoquée par les mots discordants et celle par les mots concordants est qualifiée d’effet N400.

Longtemps, l’interprétation fonctionnelle de la composante N400 a été débattue et les études ont consisté à distinguer la composante N200 de la N400 [ 4]. Les travaux réalisés dans ce sens ont permis d’établir que la N200, plus précoce que la N400, est associée à des processus de catégorisation des stimulus et est incontestablement distincte de la N400 [ 5]. Depuis l’étude princeps réalisée par Kutas et Hillyard [3], il a été démontré que le niveau d’attente d’un mot influence l’amplitude de la composante N400, laquelle est inversement proportionnelle à la probabilité d’occurrence du mot dans le contexte où il est présenté [ 6]. Bentin et al. [ 7] ont mis en évidence un effet N400 lors de la présentation de couples de mots dans une tâche de décision lexicale. Ces auteurs rapportent une composante N400 plus ample pour les mots cibles non liés aux mots amorces (exemple, tigre-banane) que pour les mots cibles liés aux mots amorces (exemple, chien-chat). Cette étude montre que la composante N400 peut reproduire en PE l’effet d’amorçage sémantique observé dans les études comportementales [ 8]. Il est d’ailleurs intéressant de remarquer que l’amplitude de la composante N400 et les temps de réponse évoluent en sens inverse dans la tâche de décision lexicale : plus le mot est attendu, plus l’amplitude de la N400 est réduite et plus le temps de réponse est court. L’augmentation de l’amplitude de la N400 semble témoigner de l’effort d’intégration sémantique du mot. Cette étude a également révélé une N400 plus ample pour les pseudo-mots (exemple, taple) que pour les mots cibles non liés. Cette observation paraît au premier abord remettre en question l’interprétation de la N400 comme reflétant l’accès au système sémantique et l’intégration du sens d’un mot dans la mesure où les pseudo-mots n’ont pas de représentation en mémoire sémantique. Toutefois, ces résultats, reproduits dans une étude récente [ 9], suggèrent qu’un pseudo-mot est en mesure d’activer la représentation sémantique d’un ou de plusieurs mots par simple effet de similarité lexicale. La composante N400 témoigne donc de l’effort d’appariement entre le pseudo-mot et la (ou les) représentation(s) activée(s) en mémoire et reflète l’effort d’intégration sémantique du stimulus présenté. Si ces études suggèrent que l’amplitude de la N400 est fonction du degré avec lequel un mot est activé dans un réseau sémantique, les travaux réalisés dans un contexte phrastique rapportent que l’occurrence de la N400 semble également être fonction de la prédictibilité d’un stimulus dans un contexte donné. Federmeier et Kutas [ 10] présentent des phrases se terminant soit par un mot concordant et attendu (« Le patient était dans un état critique. Ils décidèrent qu’ils devaient prendre un hélicoptère »), soit par un mot discordant mais appartenant à la même catégorie que le mot attendu («… un avion »), soit par un mot discordant et n’appartenant pas à la même catégorie que le mot attendu (« … un bateau »). La N400 est plus ample pour les mots discordants n’appartenant pas à la catégorie du mot attendu que pour les autres conditions. Ainsi, l’activation d’un mot en mémoire sémantique influencerait la réponse électrophysiologique selon le contexte.

Les travaux consacrés à l’étude de la composante N400 montrent qu’elle peut être évoquée dans les modalités visuelle et auditive [ 11]. La N400 est observée dans des contextes variés : discordances portant sur des visages [ 12], images d’objets [ 13], photographies d’objets réels [ 14], couleurs [ 15] ou discordances phonologiques [ 16]. Dans le débat consacré à la spécificité linguistique de la composante N400, une condition se révèle riche d’intérêt : la manipulation d’extraits lyriques. Alors qu’une discordance linguistique est associée à une N400, une discordance musicale évoque une composante positive (P600) sans qu’une N400 lui soit associée. L’écoute de mélodies simples et connues se terminant soit par une note correcte, soit par une fausse note ne suscite pas l’occurrence d’une composante N400 [ 17]. De même, la présentation d’un nombre inattendu à la fin d’une série de nombres logiquement organisés [ 18] ou encore la présence d’un silence inattendu dans une série de stimulations [ 19] ne provoque pas d’effet N400. Par ailleurs, les résultats de plusieurs études ont montré que ni la violation de règles d’accord [ 20], ni la violation de l’ordre des mots dans une phrase [ 21], ni le fait de présenter un complément d’objet après un verbe intransitif [ 22] ne suscitent de composante N400.

En résumé, l’ensemble des publications consacrées au traitement des mots et des images suggère que l’effet N400 est uniquement lié à la violation de règles sémantiques. Toutefois, le débat actuel concernant la spécificité linguistique de la composante N400 reste controversé notamment si l’on se réfère aux travaux électrophysiologiques consacrés à l’étude de la sémantique des objets et, plus particulièrement encore, des images.

Composante N300

Barrett et Rugg [ 23] ont été les premiers à mettre en évidence un effet d’amorçage sémantique en utilisant des images d’objets réels dans une tâche d’association sémantique. Cet effet d’amorçage se traduit par l’occurrence de deux composantes négatives, une N300 et une N450, plus amples pour les images d’objets non liées que pour les images d’objets liées. La composante N300, plus précoce, se caractérise à la fois par une distribution topographique plus frontale et par son décours temporel marqué par un maximum d’amplitude vers 300 ms. La composante N450 survient un peu plus tardivement que la N400 classique observée pour les mots mais se déploie selon une topographie comparable (Figure 1). D’après ces auteurs, elle représenterait une modulation de la composante N400 décrite par Kutas et Hillyard [3] tandis que la composante N300 refléterait un traitement sémantique propre aux images.

Figure 1.

Exemple de composantes N300 et N400 sur des électrodes frontales (adapté de [13]).

À l’instar de la composante N400, l’amplitude de la N300 dépend du degré avec lequel une image d’objet est activée dans un réseau sémantique mais aussi de la prédictibilité du stimulus dans un contexte donné. McPherson et Holcomb [14] ont observé un effet d’amorçage sémantique dans une tâche de décision d’objet réalisée avec des couples d’images. Dans un tiers des cas, l’image cible est sémantiquement liée à l’amorce ; dans un autre tiers, elle ne l’est pas et dans le dernier tiers, la cible est une chimère. Les trois types d’images cibles sont associés à une composante N300 et à une composante N400. Les chimères évoquent de plus grandes négativités par rapport aux objets, entre 200 et 550 ms, elles sont également associées à une positivité entre 600 et 900 ms. À l’instar des pseudo-mots, une chimère active la représentation sémantique d’un et/ou de plusieurs objets dont elle est issue. Ainsi, les composantes N300 et N400 pourraient résulter de l’effort d’appariement entre la chimère et la (ou les) représentations(s) activée(s).

Afin de préciser l’interprétation fonctionnelle de la N300, des études ont directement comparé le traitement des images et des mots. C’est ainsi que Nigam et ses collègues [ 24] ont mis en évidence un effet d’amorçage sémantique lors de la présentation de phrases se terminant soit par une image soit par un mot discordant(e). Toutefois, ces auteurs ne trouvent pas de différence significative entre les paramètres de la N400 (latence, amplitude, distribution topographique) évoquée par les images et celle obtenue pour les mots. Ils concluent que la composante N400 est comparable dans les deux cas et plaident en faveur d’un système sémantique unique pour les images et pour les mots. Contrairement à l’équipe de Nigam [24], Ganis et ses collègues [ 25] démontrent que la N400 associée aux images d’objets comporte une latence plus courte et se caractérise par une distribution topographique plus frontale par rapport à celle observée pour les mots. Ces données, qui plaident en faveur d’un système sémantique multiple, sont confirmées par les récents travaux de Federmeier et Kutas [10, 26] qui montrent que la N400 évoquée par les mots prédomine sur les régions centro-pariétales tandis que la N400 et la N300 associées aux images d’objets réels culminent sur les régions frontales. De plus, la N400 évoquée par les images d’objets est plus tardive que la N400 verbale et prédomine sur l’hémisphère gauche contrairement à la N400 verbale. Selon ces auteurs, la N400 semble bien refléter un traitement sémantique pour les deux modalités mais les régions cérébrales impliquées seraient distinctes pour les images et pour les mots [ 27]. Notons, cependant, que ces deux types de stimulus (image/mot) sont verbalisables et possèdent une étiquette verbale. On peut donc penser que ces stimulus suscitent un transcodage phonologique et la composante N400, associée à la N300, serait la conséquence d’une dénomination implicite de l’image d’objet. Pour limiter le phénomène de dénomination implicite, West et Holcomb [13] présentent des séquences d’images décrivant des scènes complexes, chaque séquence se terminant soit par une image concordante prévisible, soit par une image discordante. La présentation de l’image discordante évoque des composantes N300 et N400. Ainsi, la composante N400 n’est pas la conséquence d’une dénomination implicite de l’image mais semble bien refléter un traitement sémantique amodal de l’information alors que la N300 serait strictement liée au traitement des informations imagées. En comparant des images cibles concordantes et discordantes dans un paradigme d’amorçage mot-image, d’autres auteurs [27] proposent que la composante N300 reflète un processus de catégorisation alors que la N400 serait spécifiquement liée aux discordances sémantiques. Ces résultats sont en accord avec les modèles d’identification d’objets selon lesquels la catégorisation est un processus distinct de l’identification et qui s’active préalablement à ce dernier. Cependant, des travaux récents ont démontré que la présentation d’images d’objets ne suscite pas systématiquement l’occurrence de composantes N300 et N400. Vannucci et ses collègues [ 28] ont directement enregistré les PE dans l’hippocampe lors d’une tâche d’identification d’objets. Les objets difficilement identifiables sont associés à une composante N300 plus ample suivie d’une composante P600 de plus faible amplitude par rapport aux objets facilement identifiables. Initialement, la P600 a été interprétée comme une composante reflétant un processus de ré-analyse syntaxique de la phrase [ 29]. Toutefois, les travaux réalisés cette dernière décennie ont montré que la P600 n’est pas propre aux violations syntaxiques. En effet, on observe l’occurrence d’une P600 non seulement lors de discordances musicales [17] mais également lors de la présentation d’objets réels [ 30] ou de visages connus [ 31]. Cette composante reflèterait l’accès et la récupération de l’information sémantique indépendamment du contexte dans lequel cette information est présentée. Ainsi, l’élaboration de liens structurels entre les éléments d’une séquence (mots, notes, visages, objets) ferait appel à des ressources similaires à ces différents domaines. Certains travaux ont également rapporté l’occurrence d’une composante N300 dans d’autres contextes que le contexte imagé, en particulier lors de la présentation d’exclamations discordantes dans un paradigme d’amorçage mot-son (plaisir-[rage]) [ 32] ou encore après le calcul de multiplication mathématique en comparaison avec une situation d’addition/soustraction [ 33].

En résumé, bien que les études portant sur la composante N300 soient encore peu nombreuses par rapport aux travaux consacrés à la N400, il est maintenant bien établi que la N300 est une composante distincte de la N400 engendrée par des sources corticales différentes. Toutefois, son interprétation fonctionnelle reste controversée, notamment en regard des études réalisées ces dernières années, et devra être élucidée par les recherches à venir. Il s’agira, par exemple, d’établir dans quelle mesure le traitement des images, des exclamations et des opérations mathématiques relève de processus cognitifs similaires ou distincts. De même, l’occurrence d’une même composante des PE, N400 ou P600, associée à des niveaux de traitements linguistiques différents devrait inciter les futures études à déterminer les relations pouvant exister entre les différents niveaux de traitement.

Potentiels évoqués et traitement sémantique des mots et des images

Conclusion

La comparaison des processus en jeu dans le traitement des mots et des images permet de mettre en évidence des similarités qui suggèrent un mécanisme commun et des différences qui confirment la spécificité de la composante N300 pour le traitement des images. Dans le débat toujours d’actualité concernant l’influence de la modalité de présentation sur l’accès aux connaissances sur l’objet, la majorité des données électrophysiologiques recueillies concordent d’une publication à l’autre et s’accordent, en particulier, avec la théorie du double codage de Paivio [ 34] qui suggère que les images accèdent plus rapidement au système sémantique que les mots. En outre, les études présentées dans cet article démontrent que les différentes opérations engagées dans la compréhension du langage sont étroitement dépendantes d’autres fonctions cognitives (mémoire, catégorisation). Grâce à l’enregistrement des PE, il est possible de suivre à l’échelle de la milliseconde les changements d’activation liés au traitement des mots et des images, mais il reste difficile de déterminer avec précision l’ensemble des régions cérébrales sous-tendant ces traitements et les relations pouvant exister entre les différents types de traitement. Toutefois, de nouvelles voies d’approches se dessinent, notamment celles résultant de la fusion des données de PE et d’IRMf (imagerie par résonance magnétique fonctionnelle) qui permettra, très prochainement, de déterminer la dynamique spatio-temporelle des processus en jeu dans le traitement des mots et des images.

inline-graphic medsci2007232p193-img1.jpg

Footnotes

Article reçu le 14 août 2006, accepté le 1^er novembre 2006.

Potentiels évoqués et traitement sémantique des mots et des images