Pour ne rien manquer de Pour La Science, inscrivez-vous à nos newsletters (gratuites)
Et si une intelligence artificielle (IA) lisait directement dans votre cerveau les souvenirs qui vous reviennent en mémoire, les événements que vous anticipez ou les proches auxquels vous pensez, puis les décrivait en quelques mots sur votre écran d’ordinateur ? C’est le principe du « sous-titrage mental » (mind captioning), nouvelle technique qui vient de rencontrer un succès spectaculaire. Le dispositif développé par Tomoyasu Horikawa, des laboratoires de sciences de la communication de l’entreprise NTT, s’est ainsi révélé capable de traduire l’activité cérébrale de six volontaires en des phrases décrivant fidèlement ce qu’ils voyaient ou se remémoraient.
Cela fait maintenant plus de dix ans que les chercheurs progressent vers la lecture dans les pensées. Des interfaces cerveau-machine sont par exemple explorées pour commander des exosquelettes, tandis que d’autres dispositifs sont parvenus à reconstituer les lettres de l’alphabet que des volontaires traçaient en imagination ou les catégories d’objets qu’ils voyaient, imaginaient ou rêvaient. Mais celui de Tomoyasu Horikawa est le premier à, d’une part, lire des « structures sémantiques » complexes (des scènes comprenant des objets et des actions) dans le cerveau et, d’autre part, à en proposer une description textuelle automatique.
Pendant une première phase d’entraînement, le chercheur a élaboré de courtes légendes décrivant le contenu d’une série de vidéos, puis les a transformées en « matrices sémantiques », c’est-à-dire des matrices numériques où étaient codées séparément les caractéristiques décrites : personnages, actions, lieu… Il a utilisé pour cela un premier modèle de langage spécialisé dans ce type de transformation. Puis un décodeur a été entraîné à mettre en correspondance ces matrices avec des mesures par imagerie par résonance magnétique fonctionnelle (IRMf) effectuées pendant que les volontaires regardaient les vidéos, afin qu’il parvienne ensuite à reconstituer de telles matrices à partir de l’activité cérébrale. Dernier élément du dispositif : un second modèle de langage, capable de décrire précisément en quelques mots la scène codée par une matrice. Ces modèles « offrent des connaissances préalables solides en sémantique et peuvent améliorer l’interprétabilité des représentations neuronales », appuie Tomoyasu Horikawa.
Lors de la phase de test, les volontaires devaient regarder de nouvelles vidéos ou se remémorer celles qu’ils avaient déjà vues, tandis que leur activité cérébrale était enregistrée par IRMf. Le dispositif a alors deviné avec une bonne fiabilité (très supérieure au hasard) ce qu’ils regardaient ou imaginaient, puis en a élaboré une description textuelle fidèle. Une scène où quelqu’un sautait dans l’eau depuis une falaise était par exemple décrite par la phrase : « Une personne saute par-dessus une cascade profonde sur une crête montagneuse. » Loin de se cantonner aux réseaux du langage, le dispositif exploitait pour cela l’activité de régions réparties à travers tout le cerveau.
L’intérêt serait notamment d’aider les personnes dont les capacités de verbalisation sont atteintes, comme dans le cas d’une aphasie – une difficulté pathologique à parler ou à comprendre le langage, souvent causée par une lésion cérébrale. Mais pour vraiment démocratiser ce type de dispositifs, il faudra obtenir des enregistrements neuronaux de haute précision à l’aide d’appareils bien plus simples et accessibles que l’IRMf. Bien sûr, à mesure qu’ils progresseront, ces systèmes poseront de sérieux défis au respect de la vie privée…
Télécharger la version PDF de cet article
(réservé aux abonnés numériques)

il y a 1 day
4



