Parce que très parlante, je commencerai par le récit des conférences de Macy, au nombre de dix, qui se sont tenues de 1946 à 1953. Ces conférences ont été précédées par un évènement fondateur qui avait eu lieu en mai 1942 : une réunion sur l’inhibition cérébrale, organisée par Frank Fremont-Smith, l’administrateur de la fondation Josiah Macy Jr
3
. Cette réunion interdisciplinaire rassemblait, sur invitation :
1) Warren McCulloch et Arturo Rosenblueth (neurobiolologistes et physiciens), qui seront les premiers à modéliser la cellule neuronale selon une logique binaire ; cette modélisation sera à la base des premières constructions de neurones virtuels, puis de réseaux neuronaux ; ils sont les défenseurs d’une modélisation du cerveau par une approche digitale (c’est-à-dire l’information codée sous forme de 0 et de 1) ;
2) Margaret Mead et Gregory Bateson (anthropologues) et Lawrence Kubie (psychiatre et psychanalyste), tenants d’une approche complexe et systémique
4
pour comprendre le fonctionnement de la pensée humaine : ainsi, pour eux, le cerveau fonctionne de manière analogique, c’est-à-dire selon une logique multimodale (par exemple, une assertion peut être fausse, un peu fausse, un peu vraie, vraie) ;
3) Frank Fremont-Smith et Lawrence Kelso Frank, les administrateurs de la fondation Josiah Macy Jr, convaincus qu’il faut développer l’interdisciplinarité et marier les sciences « dures » et les sciences humaines et sociales.
Cette conférence a donné lieu à des échanges informels autour de présentations d’autres personnalités invitées, telles que Milton Erickson sur l’hypnose et Howard Liddell sur le réflexe conditionné.
Suite à cette première conférence et face à la richesse de ses échanges et aux idées qu’elle avait faites émerger, une série de conférences sur la cybernétique, au nombre de dix, désormais connues sous le nom de conférences de Macy, furent « instituées », sous la houlette des deux administrateurs de la fondation Macy. Ceux-ci demandèrent à Warren McCulloch (déjà présenté ci-dessus) d’en assurer la coordination scientifique.
Ces conférences avaient pour objectif de développer une théorie générale du fonctionnement de la pensée humaine. Organisées seulement sur invitation, elles rassemblaient un groupe de scientifiques, dont la composition s’est seulement légèrement modifiée au cours du temps, de même que celle de participants invités en fonction des thèmes traités. Le groupe des scientifiques au cœur de ces conférences comprenait 24 membres, 22 hommes et 2 femmes, dont 12 issus des sciences « dures » et 12 des sciences humaines et sociales. Les personnalités marquantes, outre les fondateurs, étaient Julian Bigelow (physicien et ingénieur informaticien), John von Neumann (mathématicien et fondateur de la théorie des jeux, il quittera l’assemblée lors de la 6
e
conférence), Walter Pitts (neurobiologiste), Norbert Wiener (mathématicien et inventeur de la cybernétique [
4
], qui quittera l’assemblée à la 8
e
conférence), Heinz von Foerster (physicien biologiste), et Hans Lukas Teuber (psychologue) qui, avec Margaret Mead, constituaient le comité de rédaction de ces conférences.
Cinquante personnalités ont été invitées tout au long de ces conférences, dont Max Delbrück (physicien et généticien) qui refusera de participer au groupe des permanents, et Claude Shannon (père de la théorie de l’information), qui sera invité à toutes les conférences à partir de la 6
e
. Ross Asby (psychiatre qui a joué un rôle important en cybernétique) a participé à la 9
e
conférence.
Ces conférences thématiques, dont les discussions ont ensuite été rapportées et discutées en conférences plénières, ont permis d’approfondir les champs de connaissances abordés. L’objectif de départ, qui consistait à établir les bases d’une théorie du mode de fonctionnement du cerveau et des processus cognitifs, ne sera cependant pas atteint. Toutefois, ces conférences ont rassemblé la majorité des acteurs qui joueront un rôle important en ingénierie de l’intelligence (intelligence artificielle, aujourd’hui que l’on peut considérer comme l’aspect d’ingénierie des sciences cognitives) et en sciences cognitives.
Elles ont permis d’acter une fracture entre deux communautés : celle qui veut simuler les processus cognitifs, en utilisant des machines digitales, et celle qui veut comprendre ces processus, en prenant en compte les caractéristiques émotionnelles et sociales. Jean-Pierre Dupuy (ingénieur et philosophe français) [
5
] a analysé le rôle de ces conférences dans la naissance des sciences cognitives. Pour construire des dispositifs capables de comprendre ces processus cognitifs, on peut s’inspirer du vivant (biomimétisme) ou pas. Dans tous les cas, il est toutefois nécessaire d’aborder un domaine que l’on peut interroger, ce qui soulève trois questions importantes :
1. comment simuler un de nos sens ? Comme évoqué plus haut, on se focalisera sur la vue (reconnaissance et traitement d’image) et sur l’ouïe (reconnaissance et traitement de la parole) ;
2. comment devenir un joueur imbattable ? Les échecs vont constituer un fantastique terrain de jeu (théorie des jeux et systèmes experts) ;
3. comment simuler le processus de recherche d’un scientifique ? Cela s’appliquera, d’abord, à la démonstration de théorèmes mathématiques (calcul symbolique).
En juillet 1956, une réunion de travail, qui va en fait durer huit semaines au cours de l’été, est organisée à Dartmouth (États-Unis). Elle est initiée par deux jeunes chercheurs (John McCarthy et Marvin Minsky, qui a été un étudiant de McCullogh et de Pitts) et deux chercheurs seniors (Nathaniel Rochester et Claude Shannon), tous américains et chercheurs en mathématique ou en informatique. Prévue pour réunir 11 participants, la réunion de travail en accueillera 20, dont quatre anciens piliers des conférences de Macy (Warren McCullogh, Julian Bigelow, Claude Shannon et Ross Ashby).
Le terme « Intelligence artificielle » a été choisi en juillet 1956 par John McCarthy, pour ne pas faire allégeance à la « cybernétique » et à son chef de file, Norbert Wiener. Ce dernier va se rapprocher du «
ratio club
», un club anglais fondé par John Bates, qui réunira ses membres de 1949 à 1958, et où l’on trouve Ross Ashby (psychiatre-ingénieur anglais venu très tôt à la cybernétique) et, après la première réunion, Alan Turing. Un nouveau domaine de recherche ayant pour objet la simulation et la compréhension des processus cognitifs est, à cette époque, en train de naître. On assiste alors à une bataille sémantique, porté par les ego de chacun, et la création de deux communautés distinctes (l’intelligence artificielle qui a ses racines plutôt américaines et la cybernétique/systémique qui a plutôt ses racines en Europe). Ces deux communautés sont cependant en interaction permanente, mais avec des niveaux de financements qui varient dans le temps. Pour l’intelligence artificielle, on parlera d’une succession de périodes hivernales (hivers de l’IA), dans les moments où elle ne sera pas ou peu financée par les institutions aux États-Unis et en Europe.
La cybernétique, quant à elle, est un domaine qui est lié au concept d’homéostasie, cher à Claude Bernard (qu’il propose en 1865 dans son
Introduction à l’étude de la médecine expérimentale
) et que l’on va retrouver dans la théorie générale des systèmes de Ludwig von Bertanlanffy (en 1968)
5,
, un biologiste qui, dans l’ouvrage dont il est auteur, va généraliser une approche systémique qu’il a progressivement mise au point dans son travail sur le vivant : tout système qui nécessite un état stationnaire pour survivre a mis en place des systèmes de rétrocontrôle positifs ou négatifs qui s’activent quand l’état du système s’éloigne de l’objectif à atteindre
6,
. La France a joué un rôle important dans la théorisation mathématique de ce concept, avec Louis Couffignal mais aussi avec Szolem Mandelbrojt, l’oncle du père des fractales, Benoit Mandelbrot
7
.
Dans les années 1960, on assiste à la convergence de quatre sous-domaines :
1. la cybernétique, avec son aspect robotique et automate (Norbert Wiener et John von Newman), qui est focalisée sur le rétrocontrôle (
feedback
) des structures vivantes (de la cellule jusqu’aux sociétés).
Le vivant apparaît comme stable face aux agressions non programmables de l’environnement.
On retrouvera ces paradigmes dans les travaux de Francisco Varella
8
et de son mentor Umberto Maturana et, en France, ceux d’Henri Atlan (qui fut influencé par les travaux d’Heinz von Foerster, le rédacteur en chef des conférences de Macy) ;
2. la théorie générale des systèmes de Ludwig von Bertalanffy (influencé par les travaux de Ross Ashby, cité plus avant), qui sera à l’origine de la biologie des systèmes.
Tout système vivant est constitué d’éléments qui interagissent entre eux et ce sont les différents modes d’interaction qui font émerger des comportements et des structures complexes.
On y associe l’aphorisme selon lequel le Tout est supérieur fonctionnellement à la somme de ses éléments. On y perçoit aussi l’importance des flux d’information au-delà des flux de matière et d’énergie, et l’importance de l’émergence de la complexité par itération de lois simples : la fractalisation du vivant. Edgar Morin, lorsqu’il organise avec Jacques Monod et Massimo Piatelli-Palmarini le colloque de Royaumont en septembre 1972 sur l’unité de l’homme, va déboucher sur le concept de pensée complexe qu’il a emprunté à Ross Ashby
9
;
3. l’intelligence artificielle dans sa phase d’ingénierie qui, partant de l’analogie entre cerveau et ordinateur digital, va permettre de construire les machines, les langages et les modes de représentation de données, pour fabriquer des dispositifs capables de jouer mieux ou aussi bien qu’un être humain (théorie des jeux, recherche opérationnelle) ou de démontrer des théorèmes mieux ou aussi bien qu’un mathématicien (raisonnement symbolique) ;
4. les méthodes de classification, capables d’annoter des groupes d’objets à partir d’un langage de description prédéfini, ou capables de définir le meilleur langage de description, pour obtenir la meilleure annotation souhaitée. Dans le premier cas, on a affaire à une classification non supervisée et dans l’autre cas, à une classification supervisée. Les méthodes utilisées s’appuient sur les statistiques descriptives (avec les travaux de Jean-Pierre Benzecri, un mathématicien et statisticien français spécialiste de l’analyse de données), jusqu’aux réseaux neuronaux monocouches et multicouches, en pointe aujourd’hui avec les travaux de Yan LeCun sur le
deep learning
, en passant par les outils de statistiques peu enseignés, comme les inférences bayésiennes
10
.
Ces différents sous-domaines ont induit la création de communautés avec leurs lots de jargons, de conférences et de journaux, et leurs leaders majeurs d’opinion. Peu ou pas de fertilisation croisée, et peu ou pas d’enseignements permettant d’avoir une vision globale et comparative de ces différentes positions et méthodes.