Un peu d’histoire (II) : la lente ascension de l’IA connexionniste

Dans l’article précédent, j’ai déjà relaté l’histoire riche en rebondissements de l’IA symbolique, parfois affublée du sobriquet affectueux de Good Old-Fashioned AI (GOFAI) par les Anglo-Saxons. Nous allons maintenant couvrir l’histoire de l’autre grande branche de l’IA, la branche connexioniste. Si l’IA symbolique a été traditionnellement dominée par les mathématiciens, les logiciens et les informaticiens, l’IA connexionniste trouve sa source dans un tout autre domaine scientifique : les neurosciences.

Comme je l’avais déjà mentionné, les deux domaines ont longtemps coexisté dans une relative indifférence mutuelle, parfois teintée d’antagonisme. L’ histoire de l’IA connexioniste commence elle aussi fin des années 1940, au moment où Alan Turing établit les fondements de la discipline.

Brève description de l’approche connexionniste.

L’IA connexionniste tire son nom de la topologie en réseau auxquels la plupart des ses algorithmes font appel. Les noeuds du réseau, appelés neurones artificiels, ne sont rien d’autre que des fonctions mathématiques reliées entre elles par des paramètres variables. Ce sont les valeurs finales de ces paramètres qui constituent l’algorithme. Que ceci ne vous rebute pas, la manière dont ceci fonctionne en pratique sera expliqué plus en détail dans un article futur.

Une des différences principales avec l’IA symbolique est que le programmeur ne spécifie pas les règles du problème à modéliser. Il laisse au contraire le réseau découvrir lui-même ces règles à travers une exposition répétée à un ensemble de données dites d’entraînement ainsi que le résultat attendu. Les algorithmes connexionnistes appliquent alors des algorithmes statistiques afin de faire progressivement évoluer les paramètres du réseau vers une solution optimale.

A la place d’un modèle, l’ ingénieur doit juste fournir un volume de données suffisant en rapport avec la complexité du problème à modéliser. Par rapport à l’approche symbolique, c’est à la fois un avantage, mais aussi un défaut car tout dépend de la qualité des données d’entraînement.

Le perceptron (années 1960-1970)

L’inspiration des premiers chercheurs connexionistes est la biologie, qui cherchent dès les années 1940 à modéliser le fonctionnement des neurones du cerveau au moyen de circuits électroniques. Le premier modèle concret est le Perceptron de Frank Rosenblatt (1957), qui modélise d’abord un seul neurone sous forme de circuit électronique, puis plus tard un ensemble d’environ un millier de neurones dans le but de modéliser une rétine artificielle primitive.

Cependant, ces réseaux de neurones artificiels restent très rudimentaires. L’ analogie entre le neurone biologique et le neurone artificiel reste superficielle, et les moyens de l’époque ne permettent pas de créer de réseau de plus d’une couche de neurones. L’idée d’une possible rétro-ingéniérie du cerveau humain est certes fascinante, mais de tels réseaux ne permettent pas de modéliser des phénomènes complexes et atteignent rapidement leurs limites.

Pire, ils se montrent même incapables de modéliser certaines fonctions élémentaires, et l’exposition de ces limitations dans un livre (intitulé Perceptrons) publié en 1969 fait douter la communauté scientifique et les organismes de financement du potentiel de ces recherches, qui sont rapidement interrompues.

La rétropropagation (années 1980)

Et pourtant, des recherches menées pendant les années 1960 avaient déjà identifié des techniques permettant d’entraîner des réseaux de neurones multicouches. Ces techniques, dites de rétropropagation sont lentement améliorées pendant les années 1970 et reviennent sur le devant de la scène au début des années 1980. Du coup, les réseaux neuronaux s’épanouissent, profitant de la conjoncture favorable à l’IA mentionnée dans le précédent article. Une des réalisations les plus impressionnantes de l’époque est l’utilisation de réseaux neuronaux multicouches pour reconnaître les chffres des codes postaux sur les enveloppes.

Mais, comme pour l’IA symbolique, les capacités plafonnent vers la fin des années 1980 suite aux limitations de puissance des ordinateurs et du manque relatif de données disponibles pour les problèmes complexes.

Les données à la rescousse (années 1990-2000)

Les années 1990 voient apparaître le World Wide Web qui va provoquer une explosion du volume de données disponibles. Tout devient progressivement digital et accessible sur le web : images, musique, vidéos… collecter les volumes de données requis pour entraîner les réseaux neuronaux cesse d’être prohibitif. Reste à résoudre le problème de la puissance de calcul car ces algorithmes sont extrêmement gourmands en puissance de calcul. La solution à ce second problème arrive en 1999 avec les premiers coprocesseurs graphiques (GPU) qui sont parfaitement adaptés au type de calculs demandés par les réseaux neuronaux même si ce n’est pas leur vocation première. En une dizaine d’années, la puissance des coprocesseurs graphiques est multipliée par 1000 et la course à la puissance ne s’arrête pas là…

On découvre alors que les réseau neuronaux multicouches, maintenant appelés réseaux profonds, continuent à progresser et gagner en puissance expressive lorsqu’on augmente à la fois la taille du réseau et le volume de données d’entraînement, qui sont maintenant disponibles en abondance. Cette capacité à traiter des problèmes de plus en plus complexes va progressivement pousser l’essentiel des autres approches en désuétude, elles qui ne bénéficient pas des mêmes effets d’échelle.

L’explosion de l’apprentissage profond (depuis 2012)

De nouveaux développements majeurs ont lieu en 2012. Le réseau neuronal AlexNet pulvérise tous les records de performance en reconnaissance d’image. Il s’agit d’un réseau neuronal dont l’architecture est appelée convolutionnelle; cette architecture est particulièrement adaptées aux algorithmes traitant des images, une catégorie de problèmes considérés jusqu’alors comme difficile.

Mais les applications possibles d’un algorithme performant de classement des images sont innombrables et ce résultat provoque une nouvelle vague d’engouement pour l’IA, qui peut maintenant s’ouvrir à de nouveaux domaines : robotique, conduite autonome, contrôle visuel de qualité, classification d’images automatisée, biométrie…

En parallèle, le traitement du langage a également progressé, la percée ayant lieu dans ce domaine en 2017 avec la mise en place de l’architecture des transformeurs. Les modèles de langage continuent à progresser rapidement pendant les années qui suivent, on parle maintenant de « grands » modèles de langage vu la progression du nombre de paramètres qui devient tout simplement gigantesque : 117 millions pour GPT1, 1,5 milliards pour GPT2, 175 milliards pour GPT3 (et donc chatGPT3.5) , probablement 1,7 trillion pour GPT4….

L’ explosion récente de l’IA dite « générative » ne fait probablement que commencer: en plus des applications purement textuelles comme ChatGPT, on dénombre également des modèles qui génèrent des images à partir d’un texte (Stable Diffusion), mais aussi des vidéos, du code informatique, des modèles 3D, voir même des plans d’action pour accomplir une tâche complexe.

Nous voici arrivés au terme de l’histoire, nous avons rejoint le présent. Nul ne sait quand le sommet sera atteint mais prenons quand même un moment pour admirer le chemin qui a été parcouru depuis les quelques neurones artificiels du premier perceptron.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.