Modèles de langage et robotique

mars 30, 2024 / Arnaud Stevins

Depuis les années 70, les films de science-fiction mettent en scène des IA humanoïdes et des droïdes qui s’ occupent de toutes les tâches ménagères. Alors pourquoi n’ avons-nous pas encore tous notre propre C-3PO, et pourquoi semble-t-il que nous remplacerons les programmeurs avant d’ arrêter de faire la lessive ?

La réponse est que la robotique est un problème très difficile, au point d’ avoir poussé beaucoup d’entreprises à l’ abandon, à commencer par OpenAI en 2021. C’est ce qu’ explique Ilya Sutskever, CTO d’OpenAI dans cette vidéo.

Mais pourquoi est-ce si compliqué, que peuvent y faire les modèles de langage et à quoi faut-il s’attendre ? C’est ce que je me propose de vous expliquer dans cet article.

1. Le paradoxe de Moravec

La première difficulté de la robotique est illustrée par le paradoxe de Moravec. Il met en évidence la différence entre l’ intelligence humaine et l’ intelligence artificielle. Le paradoxe de Moravec se résume à l’ idée suivante : le plus difficile en robotique est souvent ce qui est le plus facile pour l’ homme.

En effet, des tâches sensorimotrices qui nous paraissent évidentes comme reconnaître un objet, attraper une balle, évaluer les émotions d’ autrui etc… posent de gros problèmes aux ordinateurs. A l’ inverse, les ordinateurs excellent dans certaines activités de pur raisonnement comme le jeu d’ échecs ou le choix du trajet optimal, activités que les humains considèrent comme intellectuellement exigeantes.

Ce paradoxe peut être expliqué par le fait que lorsque le cerveau humain maîtrise parfaitement une tâche, celle-ci ne s’ exécute pas consciemment, contrairement aux tâches mal maîtrisées. Ces tâches inconscientes ne sont donc pas cataloguées comme difficiles.

Une explication complémentaire est liée à la théorie de l’ évolution. Les tâches sensorimotrices, en tant que fonctionnalités biologiques anciennes, ont été perfectionnées par les mécanismes évolutifs durant des millions d’années. Les facultés de raisonnement, apparues très récemment sur le plan biologique, ne se sont pas encore autant perfectionnées, et c’ est pourquoi elles demandent encore un effort conscient significatif.

Dès lors, notre perception de la difficulté d’ une tâche cognitive n’ est pas objective…et il se fait que les tâches perceptuelles sont très complexes, mais la machine extrêmement puissante qu’ est notre cerveau effectue l’ essentiel du traitement à notre insu…le cerveau effectue environ 10^18 (c’est-à-dire un milliard de milliards) de calculs par seconde, toutes tâches confondues, et ce avec très peu d’ énergie ! Imiter tout cela est une entreprise colossale.

2. Le problème des données

L’ autre grand problème, ce sont les données : si les modèles de langage et d’ image peuvent s’ appuyer sur les vastes quantités de données disponibles sur Internet, la situation est tout à fait différente en robotique, qui ne peut se reposer sur rien d’ analogue.

En effet, les robots exhibent une grande variabilité dans leur morphologie, leurs capteurs et leurs actuateurs. Il n’ existe aucune forme de standardisation sur ces points ce qui signifie que les jeux de données sont difficilement transférables d’ un modèle de robot à l’autre…

De plus, les robots ont besoin d’ une interaction active avec leur environnement pour générer des données significatives. Les robots physiques doivent donc effectuer des tâches de manière répétée, ce qui entraîne des efforts de collecte de données chronophages et gourmands en ressources.

Ce manque de données pose de gros problèmes pour l’ entraînement des modèles destinés à contrôler ces robots. Mais les chercheurs ne baissent pas les bras et ont mis au point deux parades :

La première est la génération de données synthétiques : il s’agit ici de créer un simulateur logiciel de l’environnement qui va permettre de générer des jeux de données réalistes. Si vous avez déjà joué à un jeu vidéo immersif type Call Of Duty ou Minecraft vous voyez de quoi il s’agit… et comme l’environnement est entièrement sous contrôle, il est possible d’adapter les interactions aux actuateurs du robot. Un exemple de ce type de simulateur est IsaacSim de Nvidia :

L’ autre approche est de chercher à rendre les jeux de données de différents robots interopérables à travers une couche d’ abstraction qui isole le modèle IA des spécificités morphologiques du robot.

C’ est l’ approche poursuivie par la collaboration entre Google Deepmind et 33 laboratoires académiques à travers le projet Open-X Embodiment Dataset qui consolide les données d’ entraînement de 22 robots différents, démontrant plus de 500 compétences et 150 000 tâches à travers plus d’un million d’épisodes.

Cet ensemble de données est le plus complet de ce type dans le domaine de la robotique. L’ idée est de pouvoir utiliser ce jeu de données consolidé pour entraîner un modèle IA robotique généraliste qui pourra ensuite être adapté à la morphologie de chaque robot. C’ est ce que Google a fait, et, en utilisant ce modèle, Google a pu démontrer une amélioration de 50 % du taux de réussite en moyenne sur cinq robots différents couramment utilisés par rapport aux méthodes développées indépendamment et spécifiquement pour chaque robot. Encore plus intéressant, Google a pu établir que le transfert de connaissance d’ un modèle de robot à l’ autre fonctionnait, rendant le co-entraînement possible, ce qui offre de grandes perspectives pour l’ entraînement des futurs modèles robotiques.

3. Modèles et agents multimodaux

L’ approche traditionnelle en robotique est d’ utiliser un système de planification classique qui définit formellement chaque action et ses conditions préalables et prédit ses effets. Comme ces algorithmes spécifient de manière rigide ce qui est possible ou non dans l’ environnement, ces robots « traditionnels » sont souvent incapables de faire face à toute forme d’ imprévu, même après de nombreux cycles d’ essais et d’ erreurs.

Le champ d’ action de la robotique classique se limite donc à des environnements étroitement contrôlés permettant de suivre un script étroitement limité, en répétant de manière rigide les mêmes séquences d’ actions.

C’ est ici que les modèles de langage (LLM) interviennent avec leur large éventail de connaissances qui va de la physique quantique à la K-pop en passant par la décongélation d’ un filet de saumon. De leur côté, les robots ont ce qui manque aux LLM : des corps physiques capables d’ interagir avec leur environnement et de relier les mots à la réalité.

Il semble logique de connecter des robots sans esprit et des modèles de langage sans corps pour que le robot puisse agir comme les « mains et les yeux » du modèle, tandis que ce dernier raisonne, planifie et fournit des connaissances sémantiques de haut niveau sur la tâche.

Plus précisément, le modèle de langage au coeur du robot se comportera comme un agent qui cherche à exécuter une tâche de haut niveau qui lui est transmise par un humain.

Il s’appuiera pour cela sur des modèles multimodaux capables d’interpréter les images renvoyées par les caméras (et les autres capteurs éventuels dont il est équipé), ainsi que sur d’ autres modèles capables de transformer les instructions du modèle de langage en mouvements à travers l’ activation des servomoteurs dont les articulations sont munies.

De nombreuses architectures internes sont possibles. La figure ci-dessous en montre un exemple :

Figure 1 : Exemple d’ architecture interne d’un robot exploitant un LLM
(source : https://arxiv.org/pdf/2305.17066.pdf)

Le modèle de langage en bas à droite (« Brain ») joue le rôle de chef d’ orchestre. La partie « robotique » se trouve au centre et se compose des actuateurs (« Sensor & control ») et des caméras (« Eye »). Un modèle de langage séparé (« Nerve ») joue un rôle intermédiaire en interprétant les images et en fournissant un description textuelle de plus haut niveau au modèle « cerveau ». A noter que le modèle intermédiaire reçoit aussi les informations de position et de mouvement pour pouvoir interpréter plus facilement les images provenant des caméras…

Je voudrais clôturer cette description par un rappel de mes deux articles précédents parlant des agents et des modèles multimodaux et qui sont directement liés à ce qui précède.

4. Acteurs

Certaines entreprises se concentrent sur des robots spécialisés qui trient, prélèvent et emballent efficacement et peuvent remplacer les travailleurs des centres de traitement des commandes, tandis que d’autres, comme Tesla, tentent de mettre au point un robot humanoïde polyvalent.

Le grand avantage des robots anthropomorphes est qu’ ils peuvent implicitement utiliser l’ensemble des outils destinés aux humains (bref, tout).

Voici un petit tour d’ horizon des principaux acteurs qui développent des robots anthropomorphes généralistes et « intelligents » (c’est à dire basés sur un modèle IA généraliste) :

le projet GR00T de Nvidia :

le robot Tesla Optimus :

le robot Figure 01, qui utilise un modèle IA développé par OpenAI :

le robot Spot de Boston Dynamics :

le robot H1 de la société chinoise Unitree :

NB – Ne ratez pas la vidéo de Boston Dynamics, elle se passe dans la brasserie Stella Artois à Louvain !

5. Conclusion

Il suffit de voir les noms des acteurs ci-dessus pour se rendre compte que la course à la robotique est bel et bien lancée entre géants de la tech. Et la robotique, ce ne sont pas seulement des robots anthropomorphes, mais aussi les voitures autonomes, les drones, les robots agricoles….le potentiel pour certains secteurs comme l’ industrie, l’ agriculture et les soins de santé est énorme. Sans parler des applications militaires qui sont évidentes….

Encore faut-il que ces promesses soient réalisées. Si un modèle génératif type transformer est à la base de ces modèles, cela veut dire que le robot risque fort d’ hériter des défauts de ces modèles (fiabilité incertaine, hallucinations), mais un robot ou un véhicule qui hallucine représente un plus grand danger qu’un modèle conversationnel…

Toute cette complexité fait que la révolution robotique de masse n’ aura pas lieu avant quelques années, mais n’ en reste pas moins probable. Dans les 5 prochaines années, nous aurons peut-être des majordomes et des compagnons IA à l’ apparence humaine et à ce moment-là, nous aurons créé une nouvelle espèce…

Sources et références

Can Robotics overcome its data scarcity challenge ? , éditorial du site RoboticsBiz le 29 février 2024 : https://roboticsbiz.com/can-robotics-overcome-its-data-scarcity-challenge/
Scientists Are Putting ChatGPT Brains Inside Robot Bodies. What Could Possibly Go Wrong?, par David Berreby pour Scientific American, le 1er mars 2024 : https://www.scientificamerican.com/article/scientists-are-putting-chatgpt-brains-inside-robot-bodies-what-could-possibly-go-wrong/
Tweet de Dr Jim Fan concernant RT-X : https://x.com/DrJimFan/status/1709217476922462268?s=20
RT-1: Robotics Transformer for real-world control at scale, par Keerthana Gopalakrishnan and Kanishka Rao sur le site de Google Reserch, le 13 décembre 2022 : https://blog.research.google/2022/12/rt-1-robotics-transformer-for-real.html

RT-2: New model translates vision and language into action, par Yevgen Chebotar, Tianhe Yu pour Google Deepmind le 28 juillet 2023 : https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
Scaling up learning across many different robot types, par Quan Vuong and Pannag Sanketi pour Google Deepmind le 3 octobre 2023 : https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

Des modèles de langage aux modèles multimodaux

mars 18, 2024 / Arnaud Stevins / 1 commentaire

Les modèles de langage présentent de remarquables qualités. Leur capacité à analyser des demandes complexes en langage humain, qui provient de l’ entraînement sur les immenses volumes de données textuelles accessibles sur Internet, a suffi pour provoquer l’ enthousiasme. Cependant, ces algorithmes ne modélisent qu’une seule composante de la perception humaine : le texte.

Les modèles multimodaux visent à s’ affranchir de cette limite en traitant nativement différents types de données comme le texte, les images, les sons voire la vidéo (ce sont les modalités).

Les premiers modèles multimodaux sont déjà disponibles sur le marché: OpenAI combine ChatGPT4 avec GPT-4V (reconnaissance d’images), DALL-E 3 (genération d’image), Whisper (reconnaissance vocale) et TTS (synthèse vocale) pour répondre aux demandes utilisateur les plus variées. Google Gemini Ultra présente des capacités comparables, et Anthropic n’ est pas en reste puisque le nouveau modèle Claude 3 Opus mis sur le marché il y a deux semaines est également multimodal.

La nouvelle frontière est la vidéo. OpenAI a récemment révélé le modèle text-to-video Sora qui crée des vidéos d’ une durée maximale de 60 secondes sur base d’un simple prompt textuel. Regardez plutôt leur démonstration, elle est impressionnante :

Un mot de terminologie avant d’ entrer dans les détails : l’ acronyme décrivant les modèles multimodaux est LMM (en Anglais « Large Multimodal Models »), par opposition aux modèles de langage appelés LLM (« Large Language Models »).

L’ apprentissage par représentation

La sauce secrète qui permet aux modèles multimodaux de fonctionner est l’apprentissage par représentation. Il va transformer un concept présenté dans sa forme « humainement intelligible » en un vecteur, soit une séquence de nombres de taille fixe.

Dans le cas d’un modèle de langage, cette représentation fera correspondre chaque mot (ou plus précisément chaque token) à un vecteur. Ces vecteurs sont en général de grande dimension : on parle de 1536 et 3072 dimensions pour les deux modèles de représentation textuelle utilisés par OpenAI décrits ici.

Cette représentation est faite de manière à préserver la correspondance sémantique. En d’autres mots, la distance entre les vecteurs mesure leur proximité sémantique (les vecteurs pour ‘auto’ et ‘camionnette’ seront proches l’ un de l’ autre). Encore plus fort, les différences entre vecteurs correspondent à d’ autres concepts plus élémentaires : la différence entre les vecteurs « roi » et « reine » est proche de celle entre les vecteurs « homme » et « femme » !

Figure 1 : Représentation de l’espace des vecteurs lexicaux
(source : https://www.pinecone.io/learn/vector-search-basics/)

Cette notion de représentation se trouve au coeur du fonctionnement de tous les modèles de langage génératifs, qui ne sont ni plus ni moins que des machines à prolonger des séquences de vecteurs. Au coeur du modèle de langage se trouve l’ algorithme appelé transformer dont l’ action peut se résumer comme suit :

Représenter le texte en entrée en une séquence de vecteurs;
Transformer la séquence de vecteurs à travers différentes opérations mathématiques qui vont enrichir et combiner les vecteurs de la séquence de mots de l’ invite pour en créer de nouveaux;
Répéter l’ action précédente un certain nombre de fois, jusqu’ à obtention d’ une séquence finale de vecteurs;
Utiliser cette séquence finale « enrichie » de vecteurs pour prédire le prochain vecteur de la séquence et donc le prochain mot;
Recommencer tout le processus en ajoutant le mot prédit à la fin de la séquence ce qui permettra de prédire le mot suivant etc…

Outre les modèles génératifs, la technique de la représentation textuelle facilite grandement le traitement du language : la recherche textuelle, le regroupement et la classification de texte deviennent beaucoup moins mystérieux lorsqu’ on réalise qu’ on peut les exécuter sur des vecteurs.

Encore plus fort, imaginez avoir appris une représentation pour l’ ensemble du vocabulaire français. Et une autre représentation pour l’ Allemand, mais dans une espace de même dimensionalité… vous pouvez alors définir une transformation entre les espaces vectoriels qui va permettre de passer d’une langue à l’autre !

Différentes modalités de représentation

Ce qui est vrai pour le texte s’ applique aussi aux images et aux sons. Moyennant un volume de données d’ entraînement suffisant, il est possible de définir une représentation des images, qui fera elle aussi correspondre à chaque image une représentation dans un espace vectoriel.

Comme pour le texte, le vecteur capturera le contenu visuel de l’ image qui pourra être utilisée pour diverses tâches de vision automatisée : détection d’ objets, classification d’ images, reconnaissance faciale, recherche d’ image par similarité…

Concrètement, cela signifie que les images contenant des voitures seront représentées par des vecteurs similaires, tout comme celles qui contiennent des chiens, des bâtiments ou tout autre objet matériel. Idéalement, la dimensionalité du vecteur sera suffisante pour modéliser des situations visuelles complexes contenant plusieurs objets et tenant compte de leur positionnement respectif et d’ autres caractéristiques apparaissant sur l’ image.

Figure 2 : Représentation vectorielle des images,
(source : https://towardsdatascience.com/image-analytics-for-everyone-image-embeddings-with-orange-7f0b91fa2ca2)

Et ce qui est possible pour les images l’ est aussi pour les sons. Les représentations sonores capturent le contenu sémantique et contextuel de fichiers audio: la prononciation du mot voiture ainsi que le bruit d’ une voiture qui démarre seront liés dans l’ espace vectoriel par une relation de proximité.

Figure 3 : Représentation vectorielle de l’audio
(source : https://people.csail.mit.edu/weifang/project/spml17-audio2vec/)

Il ne reste plus qu’ à mettre tout cela ensemble. Nous disposons maintenant d’ un mécanisme pour encoder des données provenant de différentes modalités dans un espace vectoriel de représentation unique et multimodal.

Figure 4 : Représentations multimodales
(source : https://www.pinecone.io/learn/vector-search-basics/)

La dernière étape consiste à intégrer cela dans un modèle, en général de type transformer qui va chercher à prédire le prochain vecteur; vous disposez alors d’ un modèle multimodal qui peut s’ appuyer sur toutes les sources d’ informations disponibles pour générer les données en sortie dans le format désiré.

Figure 5 : Modèle génératif multimodal complet
(source : https://medium.com/@cout.shubham/exploring-multimodal-large-language-models-a-step-forward-in-ai-626918c6a3ec)

Une petite remarque est que le modèle multimodal idéalisé « bout à bout » que je viens de décrire n’ existe probablement pas encore. Les modèles multimodaux actuels comme ceux d’ OpenAI, de Google ou d’ Anthropic sont vraisembablement construits comme un assemblage de différents modèles, à savoir un modèle de langage unimodal qui coordonne et fait appel à d’autres modèles « transmodaux » en fonction des besoins : par exemple, ChatGPT+ fera appel à DALL-E 3 si l’ utilisateur veut générer une image (text-to-image), ou à GPT4-V si une image doit être interprétée (image-to-text) etc…on se retrouve donc plutôt aujourd’hui dans un scénario multiagent comme décrit dans mon article précédent accessible ici.

Applications et perspectives

Les LMM présentent un grand attrait pour l’ automatisation des soins de santé, où les données patient se retrouvent dispersées à travers du texte manuscrit ou digital, de l’ imagerie voire des rapports d’ analyse de laboratoire sous forme de données tabulaires. La radiologie est souvent citée en exemple puisque sa matière première est l’ imagerie (scanner, IRM, radios…), mais rien n’ empêche d’ entraîner un LMM à recevoir et interpréter d’ autres signaux comme ceux d’ un électrocardiogramme.

Un autre domaine où la multimodalité jouera un rôle essentiel est la robotique où l’ on va chercher à donner aux robots des capacités de percevoir et d’interagir avec leur environnement. La consolidation de ces informations visuelles, auditives et textuelles dans un modèle unique permettra au robot de naviguer et d’ agir plus efficacement sur le monde extérieur.

Le grand défi de la multimodalité, notamment pour la robotique, est l’ intégration de la vidéo dans la chaîne multimodale. Les grands acteurs du secteur planchent dessus.

Google possède un avantage important dans ce domaine puisque Youtube est une de ses filiales. Avec plus de 500 heures de nouvelles vidéo sont publiées chaque minute sur Youtube, cette chaîne constitue un excellent réservoir de données pour l’ entraînement des futurs modèles multimodaux vidéo.

Pour conclure, l’ apprentissage multimodal profond est un domaine passionnant et en pleine évolution qui recèle un grand potentiel pour faire progresser la vision par ordinateur et d’ autres domaines de l’ intelligence artificielle.

Bien que l’ apprentissage multimodal présente des difficultés, notamment la nécessité de disposer de grandes quantités de données d’ entraînement et la difficulté de fusionner des informations provenant de modalités multiples, les progrès récents des modèles d’ apprentissage profond permettent d’ améliorer considérablement les performances dans toute une série de tâches.

C’ est un domaine à suivre avec attention en 2024, qui pourrait bien être l’ année des LMM tout comme 2023 a été celui des LLM.

Sources et Références

Multimodal Models and Computer Vision: A Deep Dive par Petru Potrimba sur le site de Roboflow le 10 mai 2023 : https://blog.roboflow.com/multimodal-models/
Multimodal LLMs – Beyond the Limits of Language par Tim Flilzinger pour Konfuzio le 19 octobre 2023 : https://konfuzio.com/en/multimodal-llm/
What are embeddings ?, livre en ligne par Vicki Boykis : https://vickiboykis.com/what_are_embeddings/
Exploring Multimodal Large Language Models: A Step Forward in AI, par Shubram Karwa le 16 novembre 2023 pour Medium : https://medium.com/@cout.shubham/exploring-multimodal-large-language-models-a-step-forward-in-ai-626918c6a3ec
The Multimodal Evolution of Vector Embeddings, par James Le, le 9 août 2023 pour TwelveLabs : https://www.twelvelabs.io/blog/multimodal-embeddings

Les agents intelligents

mars 4, 2024 / Arnaud Stevins

Les modèles de langage sont souvent perçus comme d’ excellents générateurs de texte. Cet engouement pour les capacités littéraires des modèles ne doit cependant pas faire oublier que leur vraie promesse se situe dans leurs capacités cognitives plus abstraites comme le raisonnement et la planification.

Ces dernières sont encores imparfaites mais les progrès constants dans le domaine laissent entrevoir un nouveau domaine d’ application aux possibilités presque infinies : les agents.

Les êtres humains sont remarquables dans leur capacité à absorber constamment de nouvelles informations, prendre des décisions, exécuter des actions, puis observer l’ impact de ces actions pour prendre de nouvelles décisions. Notre vie peut se voir -de manière un peu réductrice- comme un cycle sans fin d’ observations, de raisonnements et d’ actions.

L’ idée des agents est précisément de mettre en place des cycles similaires au coeur desquels on trouve un modèle de langage à la place d’ un être humain. Cet agent interagira avec l’environnement soit de manière physique (robotique, véhicule autonome…), soit de manière informatisée (appels de fonction via interface de programmation).

1. Composants d’un agent

Au cœur de l’ agent intelligent se trouve le modèle de langage, un élément crucial qui analyse les situations et suggère des actions. Ce modèle est soutenu par une variété de modules qui facilitent sa communication avec l’extérieur.

Pour tirer pleinement parti de ses capacités, le modèle de langage doit être sollicité de manière précise, une pratique connue sous le nom de prompt engineering. À travers des consignes méticuleusement élaborées, on définit l’ identité, l’ expertise et la conduite du modèle, en y intégrant contexte, paramètres et parfois des indications sur le rôle spécifique à jouer dans des simulations multi-agents, un sujet dont nous reparlerons plus bas.

La capacité de raisonnement du modèle repose sur une connaissance approfondie du monde, structurée autour de trois piliers :

la connaissance générale, acquise lors de l’ entraînement initial sur un vaste corpus textuel, fournit une base solide;
la connaissance spécialisée, qui vient enrichir la base générale avec des notions, des méthodes de raisonnement et un vocabulaire spécifique au domaine d’ application;
la connaissance procédurale, qui équipe le modèle des savoirs nécessaires pour agir sur l’ environnement extérieur, comme connaître et comprendre les paramètres des interfaces de programmation.

Ces connaissances sont transmises au modèle via diverses techniques de mémorisation, telles que le contexte des prompts, la récupération augmentée de génération (RAG) et l’affinage. Pour en savoir plus sur ces méthodes, je vous renvoie à mon article précédent, disponible ici.

Dans la grande majorité des cas, l’ agent comprend également une interface utilisateur, permettant une interaction directe avec l’ humain pour recevoir des missions, rapporter les résultats, poser des questions ou fournir des mises à jour intermédiaires.

Enfin, les interfaces de programmation (API) constituent un élément clé, permettant au modèle d’ interagir avec le monde extérieur. Elles peuvent servir de sources d’ information ou de moyens d’ action, comme l’ accès à des moteurs de recherche en ligne ou à des plateformes de commerce électronique pour effectuer des réservations ou passer des commandes.

2. Exemples d’ application

Après avoir exploré l’architecture de l’agent, intéressons-nous à certains cas d’ application emblématiques :

Prenons d’ abord l’ exemple de l’ agent de programmation, qui illustre parfaitement l’ utilisation des capacités des modèles de langage dans le domaine informatique. Voici comment il opère : un utilisateur soumet une requête de programmation au modèle, qui génère ensuite du code. Ce code est exécuté dans un environnement dédié, et le modèle reçoit en retour le résultat de cette exécution, ou un message d’ erreur si le programme ne fonctionne pas comme prévu. Le modèle peut alors renvoyer le code généré à l’ utilisateur, ou le retravailler et le soumettre à nouveau, jusqu’à obtenir un résultat satisfaisant.

Approfondissons l’ idée pour construire un processus professionnel de développement logiciel, où divers acteurs jouent des rôles spécifiques : directeur, responsable produit, architecte technique, chef de projet, développeur, testeur… Imaginez maintenant que chaque poste est occupé par un modèle de langage spécialisé, interagissant entre eux selon un processus établi jusqu’ à la livraison finale du produit. Il suffirait de fournir une description de haut niveau au « directeur IA » et de laisser le processus se dérouler de manière autonome, aboutissant à la création d’ un produit fini.

Figure 3 : Processus de développement logiciel MetaGPT

Cette vision avant-gardiste est au cœur des systèmes multiagents. MetaGPT, comme décrit précédemment, simule un tel processus de développement logiciel, une approche pouvant être étendue à de nombreux autres scénarios dès lors qu’une structure organisationnelle et un processus existent.

Pour illustration, voici une vidéo de l’utilisation de MetaGPT pour développer automatiquement un jeu de snake :

Passons à une autre idée brillante, cette fois dans le domaine de l’ interaction avec le monde extérieur : la plupart des applications informatiques avec lesquelles nous interagissons utilisent une interface graphique qui répond à des principes relativement uniformes : barre de menus, boutons, utilisation de la souris pour cliquer sur les zones à sélectionner etc…. la technique d’interaction avec ces interfaces peut être apprise à un modèle de langage capable d’ interpréter les images (comme GPT4 ou Gemini Pro).

Le modèle pourra alors interagir de manière « généraliste » avec de nombreuses applications utilisateur moyennant quelques informations complémentaires comme le mode d’ emploi des applications. La puissance de cette approche ne doit pas être sous-estimée : des milliers d’ applications interactives deviennent ainsi directement accessibles au modèle, multipliant d’ autant sa capacité d’action.

Cette idée a donné naissance au Rabbit r1, la grande révélation du CES à Las Vegas qui s’ est tenu en janvier. Ce petit appareil révolutionnaire contient simplement un micro et un haut-parleur permettant à l’ utilisateur de donner des instructions vocales à un modèle de langage qui va directement interagir avec de nombreuses applications mobiles….

Pour plus d’informations, voici un lien vers la présentation officielle du Rabbit r1 :

3. Risques

Pouvoir agir directement dans le monde réel offre bien sûr un grand potentiel mais présente aussi des risques significatifs. Détenir une telle capacité d’action peut provoquer des dommages involontaires. Un scénario trivial verrait un agent placer une réservation ou une commande erronée par internet…

Plus préoccupant, il est possible d’ imaginer des agents volontairement construits à des fins nuisibles. Le hacking autonome illustre bien ce risque : un agent disposant d’ une large bibliothèque d’ outils de hacking pourra sonder sa cible informatique, choisir les outils les plus appropriés voire les adapter pour en maximiser l’ impact, puis engager un scénario d’ attaque complexe afin d’ atteindre les buts spécifiés par le hacker : prise de contrôle de la machine, destruction ou vol de données, déni de service etc….

Ce risque n’ est pas que théorique : des chercheurs ont montré qu’ une telle approche fonctionne et est capable de hacker efficacement des sites web.

4. Conclusion

Comme vous pouvez le voir, les agents IA présentent d’ énormes potentialités, et il y a gros à parier que 2024 verra de nouveaux développements dans ce domaine…

Mais c’ est surtout en conjonction avec les nouveaux progrès attendus comme la multimodalité que les agents pourront montrer toute leur puissance. Imaginez ce que pourrait faire un agent capable d’ interpréter à la fois le son, les images et le texte de manière consolidée…

Il ne reste qu’ à placer le modèle dans un robot et lui donner la capacité d’ agir sur les actuateurs (bras, mains, jambes) et vous possédez un robot avec des capacités tout à fait inédites. Ce n’ est pas pour rien que plusieurs géants de la tech (dont Tesla) se sont récemment lancés dans la réalisation de robots humanoïdes…

Le grand bémol à toutes ces promesses reste la tendance des modèles à halluciner. Ne pas pouvoir faire totalement confiance aux informations issues du modèle est un souci gérable dans un scénario conversationnel, un utilisateur averti en valant deux. Mais un agent IA agissant directement sur le monde extérieur sans validation humaine présente un risque bien plus grand. Cette contrainte pourrait bien voir le déploiement d’agents limités à des scénarios d’ utilisation subalternes et inoffensifs.

Comme souvent, difficile de faire des prédictions. Le tableau des agents IA est contrasté. Les promesses sont importantes mais les risques aussi.

Notes et références

What is LLM Agent? Ultimate Guide to LLM Agent [With Technical Breakdown] par Moumita Roy et Pranav Patel pour Ionio.ai : https://www.ionio.ai/blog/what-is-llm-agent-ultimate-guide-to-llm-agent-with-technical-breakdown
LLM Agents can Autonomously Hack Websites, par Daniel Kang le 13 février 2024 pour Medium : https://medium.com/@danieldkang/llm-agents-can-autonomously-hack-websites-ab33fadb3062
LLM-based Autonomous Agents – LLM Apps that perform Human-like Tasks, tweet de Bindu Reddy : https://twitter.com/bindureddy/status/1697386242936385909?s=20
Understanding AI Agents in the age of LLMs!, tweet de Akshay Pachaar : https://twitter.com/akshay_pachaar/status/1697950190756585700?s=20
LLM Powered Autonomous Agents sur le blog de Lilian Weng, le 23 juin 2023 : https://lilianweng.github.io/posts/2023-06-23-agent/

Artificiellement Intelligent

Rendre l'IA accessible à tous

Mois: mars 2024