Une nouvelle offre intéressante chez OpenAI

Dans la rédaction de ce blog, j’ essaie de ne pas devenir le relais des annonces marketing de certaines entreprises; j’ évite donc de réagir à chaud sur les tous derniers développements et déclarations tonitruantes dont le secteur est régulièrement inondé.

Je vais cette fois faire une exception car les produits annoncés par OpenAI lundi dernier sont déjà en partie disponibles et représentent un progrès important, non seulement pour les utilisateurs payants, mais aussi et surtout pour l’ immense majorité des utilisateurs non payants.

Allons-y !

1. ChatGPT-4o disponible pour tout les utilisateurs

OpenAI met progressivement à disposition des utilisateurs un nouveau modèle appelé ChatGPT-4o. ChatGPT-4o est très performant puisqu’ il vient de se hisser à la première place du classement des modèles de langage établi par la société LMSYS :

Figure 1 : LMSYS chatbot arena leaderboard publié sur HuggingFace dd. 16 mai 2024

Mais surtout, tous les utilisateurs inscrits chez OpenAI auront désormais accès au nouveau modèle ChatGPT4o qui est comparable à ChatGPT-4 en termes de performances. Et c’ est un progrès majeur pour les utilisateurs « gratuits » qui avaient jusqu’ à présent uniquement accès au modèle ChatGPT-3.5 aux performances nettement plus modestes.

Rien de plus simple que d’ accéder à ce modèle : connectez-vous sur https://chat.openai.com et sélectionnez GPT-4o. Ce modèle étant déployé de manière phasée vers les différentes catégories d’ utilisateurs, il est fort possible que ce modèle ne soit pas encore disponible pour vous. Dans ce cas, encore un peu de patience…

Figure 2 : Interface utilisateur GPT-4o

Mais alors quel avantage reste-t’ il pour les abonnés ayant souscrit à l’ abonnement ChatGPT+ qui coûte 20$/mois ? Le modèle sera soumis à des limites de nombre de questions dans le temps et cette limite (pas encore communiquée) sera cinq fois supérieure pour les utilisateurs ChatGPT+.

2. Multimodalité : audio et images

Le « o » dans le modèle GPT4o est une abréviation de « omni » et fait allusion aux compétences multimodales du nouveau modèle qui est capable de traiter nativement de l’ audio et des images en entrée et en sortie (pas la vidéo).

La capacité de traiter nativement la voix est intéressante et nous fait avancer sur la voix de l’ assistant personnel : pouvoir engager une conversation naturelle avec un assistant et recevoir une réponse sans délai, l’ interrompre en cours de conversation, lui demander de chanter ou le voir changer le ton de sa voix rendra l’ interaction beaucoup plus naturelle et représente un pas de plus vers des machines avec lesquelles nous interagissons comme avec les humains : en leur parlant.

Pour vous donner une idée de ce qui sera possible, voici une démonstration amusante des fonctionnalités audio avancées de GPT4o :

Démonstration des capacités verbales de ChatGPT-4o

Ces fonctionnalités multimodales ne sont cependant pas encore disponibles; OpenAI indique qu’ elles devront d’ abord faire l’ objet de vérifications de sécurité extensives. La voix est une manière essentielle de reconnaître un interlocuteur (pensez au téléphone) et il n’est pas difficile d’ imaginer les utilisations malfaisantes d’ un modèle de langage capable d’ imiter des voix à la perfection…..

Une remarque : Ne vous laissez pas abuser par le petit écouteur qui apparaît à droite de l’ app ChatGPT sur smartphone! S’ il permet de communiquer dès aujourd’ hui avec l’ application par la voix, le mécanisme actuel repose sur un chaîne de trois modèles utilisés séquentiellement :

  • un modèle audio-vers-texte (OpenAI Whisper);
  • le modèle ChatGPT en tant que tel (texte-vers-texte);
  • un modèle texte-vers-voix (OpenAI Text-To-Speech TTS).

Cela fonctionne, mais c’ est nettement plus lent et plus limité en termes de fonctionnalités, une grande partie de l’ information se perdant dans les transcodages successifs…Patience donc.

3. Agents GPTs

Autre nouveauté : les abonnés gratuits vont maintenant pouvoir utiliser les agents GPTs disponibles sur le GPT store, qui est accessible ici. Par contre, seuls les abonnés payants ChatGPT+ pourront créer de nouveaux agents GPTs et les publier sur le GPT store.

Figure 3 : page d’accueil du GPT Store

Les agents GPTs ne sont rien d’ autre que des versions de ChatGPT spécialisées à travers un prompt système et/ou puisant de l’ information dans des documents accessibles via la Récupération Augmentée de Génération (RAG). Les agents GPTs sont également capables d’ appeler des applications tierces via une interface de programmation.

Par exemple, j’ ai développé un agent GPT qui restructure l’ argumentation d’ un texte selon le Principe Pyramidal de Barbara Minto, un classique de la consultance en gestion. Vous pouvez l’ utiliser ici : Agent GPT Pyramidal.

J’ ai également développé trois agents GPTs à caractère éducatif que je présenterai dans un prochain article qui sera dédié à l’ impact de l’ IA générative dans l’ éducation.

Quoi qu’ il en soit, n’ hésitez pas à parcourir le GPT Store et à expérimenter.

4. Application desktop pour MacOS

Si vous possédez un ordinateur Apple récent (càd avec un processeur Apple M1 ou plus), OpenAI met maintenant à disposition une application qui permet d’ accéder à ChatGPT par une simple combinaison de touches. Une version Windows est en développement et sera disponible avant la fin de l’ année.

Voici une image provenant d’ OpenAI montrant l’ interface utilisateur de l’application :

Figure 4 : Interface utilisateur de l’ application native MacOS

L’ idée est intéressante car c’ est un premier pas vers un ordinateur pilotable par la voix. Avoir une interface conversationnelle immédiatement à disposition pourrait aussi marginaliser les engins de recherche en reléguant ces derniers à l’arrière-plan comme le fait Perplexity, un outil que je vous conseille vivement d’ essayer. Greffez ensuite la future interface vocale de GPT4o et vous avez tous les ingrédients d’ un excellent assistant personnel.

Quelques réflexions

Si le meilleur modèle est disponible pour tous, une grande partie de la valeur ajoutée de l’abonnement payant ChatGPT+ aura disparu. Et comme OpenAI veut certainement éviter une avalanche de résiliations des abonnements payants, je suis convaincu qu’ une autre annonce d’ OpenAI est proche et introduira un nouveau modèle plus puissant à la destination exclusive des abonnés payants. Cela semble logique : GPT-4o devient le nouveau GPT-3.5 « grand public » et le nouveau modèle, qu’il s’appelle GPT-4.5, GPT-5 ou autre chose devient le nouveau modèle « premium »…

OpenAI devra également tenir compte de la nouvelle législation européenne sur l’ IA parce que le modèle GPT4o pourrait potentiellement être utilisé pour la détection des émotions des personnes, une pratique interdite dans les lieux éducatifs et professionnels au termes de l’ European Union Artificial Intelligence Act.

Et pour remercier ceux qui ont lu jusqu’au bout, une petite vidéo à ne pas rater sur le sujet :

Sources et références

Deux livres pour comprendre l’IA et explorer son potentiel

Je voulais attirer votre attention sur deux ouvrages récents que je considère très utiles pour une compréhension plus profonde de l’ Intelligence Artificiele et de ses enjeux. Understanding Deep Learning de Simon Prince et Co-Intelligence de Ethan Mollick offrent des perspectives complémentaires et profondément éclairantes sur ces thèmes. Ces livres permettent non seulement de démystifier les aspects techniques de l’ apprentissage profond, mais aussi de réfléchir à notre relation interactive avec l’ IA.

Figure 1 : couverture des deux livres

1. Understanding Deep Learning

Le livre Understanding Deep Learning de Simon Prince offre une introduction exhaustive et détaillée aux concepts fondamentaux de l’ apprentissage profond. Le texte est structuré de manière à couvrir les divers aspects de cette discipline en pleine expansion, allant de l’ apprentissage supervisé, non supervisé et par renforcement, jusqu’à l’ examen des implications éthiques de l’ IA.

Le traitement des réseaux neuronaux profonds est particulièrement détaillé. Prince examine comment les couches se composent pour former des architectures complexes et comment ces structures peuvent être optimisées pour diverses applications, en soulignant la différence entre les réseaux peu profonds et profonds. Les chapitres sur les fonctions de perte et les algorithmes d’ optimisation fournissent des bases essentielles pour comprendre comment les modèles sont entraînés.

Un autre point fort du livre est l’ exploration des réseaux convolutifs, essentiels pour les applications de traitement d’ images et de séquences temporelles. Les réseaux de type transformers, qui ont révolutionné le traitement du langage naturel, sont également détaillés, mettant en lumière des architectures comme BERT et GPT-3.

Le livre ne néglige pas les aspects théoriques plus avancés, tels que les flux de normalisation et les autoencodeurs variationnels, qui sont cruciaux pour comprendre les modèles génératifs contemporains. Prince aborde des applications pratiques tout en fournissant les bases mathématiques nécessaires à une compréhension profonde des mécanismes sous-jacents.

La partie finale du livre s’ interroge sur les raisons de l’ efficacité de l’ apprentissage profond et examine les débats en cours sur le nombre et la profondeur des paramètres requis par les réseaux neuronaux. En conclusion, il réaffirme l’ importance de l’ éthique dans la pratique de l’ IA, un sujet qu’il avait introduit au début de l’ ouvrage.

Ce livre se distingue par sa clarté et sa profondeur, rendant le domaine de l’ apprentissage profond accessible tout en offrant une richesse d’ informations techniques pour les praticiens et chercheurs expérimentés. Destiné à un public maîtrisant les sciences exactes et les mathématiques, ce livre constitue une ressource indispensable pour quiconque s’ intéresse ou travaille dans le domaine de l’ Intelligence Artificielle.

2. Co-Intelligence : living and working with AI

Le livre « Co-Intelligence: Living and Working with AI » d’ Ethan Mollick explore l’ intégration progressive de l’intelligence artificielle dans nos vies quotidiennes et professionnelles, et comment nous pouvons apprendre à cohabiter de manière efficace et éthique avec ces nouvelles formes d’ intelligence. Réparti en deux parties principales et un épilogue, le livre aborde les défis et les opportunités que cette coexistence engendre. Contrairement au premier livre, ce livre est accessible à tous les publics et ne nécessite aucune compétence technique particulière.

La première partie du livre s’ attarde sur la création et l’ alignement de cette forme d’ intelligence nouvelle et étrange que représente l’ IA. Mollick commence par discuter de la complexité inhérente à la création de ces intelligences non humaines, soulignant leur nature fondamentalement différente. Il propose ensuite des stratégies pour aligner les objectifs de l’ IA avec les valeurs humaines, un défi crucial pour éviter des conséquences imprévues. Il introduit également quatre règles pour une co-intelligence réussie : toujours inclure l’ IA dans les discussions, conserver l’ élément humain dans la boucle de décision, traiter l’ IA comme une personne à part entière, et partir du principe que l’ IA utilisée aujourd’ hui est la pire version à laquelle nous serons confrontés, impliquant une amélioration continue.

Dans la deuxième partie, Mollick examine les divers rôles que l’ IA peut jouer dans la société. Il souligne tout d’ abord les réactions étonnament humaines des modèles de langages, susceptibles de nous pousser à une certain anthropomorphisme. L’ IA en tant que créatif ouvre de nouvelles avenues dans les arts et la conception mais pose d’ épineuses questions jurdiques. L’ IA utilisée sur le lieu de travail soulève des enjeux autour de la collaboration et de l’ automatisation. L’ auteur explore ensuite l’ impact de l’ IA en tant que tuteur et coach, où elle peut personnaliser l’ apprentissage et offrir un soutien adapté aux besoins individuels.

À travers ce texte, Mollick offre une analyse approfondie et accessible des implications de vivre avec l’ IA. Il ne se contente pas de décrire les technologies actuelles, mais projette les lecteurs dans un futur proche où l’ IA est omniprésente et influente. En posant des principes de base pour une interaction saine et productive, Co-Intelligence: Living and working with AI sert de guide essentiel pour naviguer dans cette nouvelle ère technologique, soulignant la nécessité d’une approche réfléchie et éthique à l’ égard des technologies qui façonnent déjà notre monde.

Conclusion

Bien que Understanding Deep Learning et Co-Intelligence abordent l’IA sous des angles différents, ils sont fortement complémentaires. Alors que Prince nous fournit les outils pour comprendre le « quoi » et le « comment » des technologies, Mollick nous montre « avec qui » et « pour quoi » nous pourrions travailler main dans la main avec ces technologies. Ensemble, ces livres dessinent un tableau plus complet de l’ avenir de l’ intelligence artificielle, un avenir où la compréhension technique et la collaboration humaine se renforcent mutuellement.

Je vous en souhaite bonne lecture.

Référence des ouvrages

IA générative et droits d’auteur : litiges en cours et perpectives

Dans mon article précédent, j’ ai exposé de manière générale les zones de friction entre l’ IA générative et les droits d’ auteur. Je voudrais maintenant compléter la discussion en présentant les deux principaux litiges en cours et discuter de perspectives plausibles d’évolution.

Ces deux litiges sont l’ action intentée par Getty Images contre Stability AI et celle intentée par le New York Times contre OpenAI et Microsoft. Le premier concerne les images et le second le texte.

Passons-les succinctement en revenue sans trop entrer dans le détail juridique (pour lequel je vous réfère aux threads en référence rédigés par des juristes spécialisés dans le domaine).

1. Le litige opposant Getty Images à Stability AI

Il s’ agit d’ un litige en cours depuis février 2023 à la fois aux Etats-Unis et au Royaume-Uni. Il oppose la bibliothèque d’ images en ligne Getty Images à Stability AI, développeur du générateur d’ images Stable Diffusion accessible ici. La justice britannique a décidé début décembre que la plainte de Getty Images était recevable et que le procès pouvait débuter.

Getty Image allège que Stability AI a copié sans permission plus de 12 millions d’ images lui appartenant pour l’ entraînement de ses modèles, dans le but de construire une offre concurrente, réclame 150.000 dollars d’ indemnité par image contrefaite générée….et que, cerise sur le gâteau, les images de Stability reprennent parfois en tout ou partie les filigranes de Getty Images comme dans l’ image de synthèse ci-dessous :

Figure 1 : Image de synthèse de Stability AI reprenant un filigrane de Getty Images (crédit : The Verge)

La position de Stability à ces allégations n’ est pas connue publiquement. Il est donc difficile de fournir une analyse équilibrée présentant les deux points de vue.

Un élément important du litige est le territoire sur lequel s’ est déroulé l’ entraînement et le développement du modèle, qui va déterminer la juridiction compétente (Royaume-Uni ou Etats-Unis). Mais sur quelle base se fera cette détermination ? le lieu de travail des spécialistes AI en charge de ces activités ? la localisation physique du serveur hébergeant les données ? Celui du calculateur réalisant l’ entraînement ? Ce n’est pas simple.

Comme pour enfoncer le clou, Getty Images a lancé en septembre son propre service d’ IA générative appelé « Generative AI by Getty Images », entraîné exclusivement sur sa propre bibliothèque d’images…

2. Le litige opposant le New York Times à OpenAI et Microsoft

Le journal américain The New York Times a intenté fin décembre un procès aux USA contre OpenAI et Microsoft. Il estime en effet qu’ il est floué par ces deux entreprises, qui ont abondamment utilisé ses textes pour entraîner les modèles à la base de chatGPT.

Si OpenAI a entraîné le modèle, Microsoft est présenté comme le complice qui a mis à disposition son infrastructure pour rendre l’ entraînement possible, et fournit de surcroît une version de GPT4 sous sa propre enseigne (Bing Chat) qui présenterait les mêmes infractions.

La citation inclut une centaine de textes d’ articles qui ont pu être restitués dans leur quasi-intégralité après un prompt qui reprend les premiers mots de l’article, comme dans l’ exemple ci-dessous (le texte en rouge est identique).

Figure 2 : Exemple de restitution « par coeur » d’un article du New York Times

La plainte fait aussi état de la forte représentation de textes issues du New York Times dans la base de données *Common Crawl*, qui a été utilisée pour entraîner GPT4 : le site du New York Times se retrouve en effet en quatrième position…

Figure 3 : Répartition des principales sources de données du Common Crawl

Selon le journal, la qualité de son contenu se retourne également contre lui car il pousse les développeurs de modèles génératifs à pondérer fortement le texte dont il est la source dans les données d’ entraînement.

Le journal insiste sur le coût financier et humain d’ un journalisme de qualité qui couvre les cinq continents et demande parfois de travailler dans des conditions difficiles, voire dangereuses. La citation du NY Times contraste le rôle sociétal essentiel du journalisme avec la motivation lucrative d’ OpenAI et de Microsoft, la valorisation boursière de cette dernière société ayant augmenté d’ un trillion (!) de dollars au cours de la seule année 2023.

Le journal déclare avoir cherché un accord financier amiable avec OpenAI pour leur permettre d’ exploiter leurs articles mais ces négociations ont échoué. En conséquence de quoi, le New York Times réclame -en plus des dommages- ni plus ni moins que la destruction de tous les modèles de langage qui ont été entraînés sur ses données sans autorisation (à commencer par les GPT d’OpenAI) !

La position d’OpenAI, que vous pourrez lire dans leur communiqué de presse en référence est la suivante :

  • L’entraînement de modèles génératifs peut exploiter des données soumises au droit d’auteur car cela relève du *fair use* (voir mon article précédent qui présente cette notion). De plus, OpenAI propose un mécanisme permettant aux auteurs qui ne désirent pas voir leur contenu utilisé pour l’entraînement de signaler leur refus (approche de type OPT-OUT);
  • La « régurgitation » (c’est leur terme) de contenus existants mot pour mot est un problème rare qu’ils essaient d’ éliminer. En effet, les programmes d’IA générative ne mémorisent en principe pas l’information mais la transforment de la même manière qu’ un être humain qui se forme à travers la lecture de textes pour générer ensuite des créations originales;
  • En outre, ces « régurgitations » proviennent principalement d’ articles anciens qui se sont trouvés recopiés sur de multiples sites au fil du temps ce qui a pu déséquilibrer l’ algorithme en leur faveur, la répétition leur accordant une pondération trop importante pouvant mener à la mémorisation « verbatim » et à la régurgitation;
  • Les négociations avec le NY Times pour l’ obtention d’ un accord de license avançaient de manière constructive jusqu’ au moment du lancement de l’ action en justice qui les a profondément surpris. L’ implication étant ici que le New York Times cherche par cette action judiciaire à faire pression sur OpenAI pour obtenir un accord plus favorable.

Voilà ce qu’ il en est. La plupart des commentateurs avisés pensent que ceci se terminera par une transaction amiable, ce qui est compatible avec les positions maximalistes des deux parties exprimées en public (interdiction d’un côté, « fair use » de l’autre), qui cherchent surtout à faire pression sur l’ adversaire.

Si vous voulez vous plonger dans une analyse juridique de ce litige, je vous suggère de lire les threads X de Jason Kint et Cecilia Ziniti, des spécialistes du domaine, repris en référence.

3. Quelques réflexions

Pour terminer, je voudrais mentionner deux scénarios possibles d’évolution à moyen terme sur ce sujet :

Un scénario « progressiste » verrait les auteurs publiant en ligne -mais désireux de protéger leurs droits- contraints d’ ajouter une référence d’ identification dans un format facilement lisible par une machine (métadonnées). Ceci serait contrebalancé par une double contrainte pour les développeurs de modèles génératifs IA :

  • devoir publier la liste de tous les auteurs et leurs textes/images repris dans les données d’entraînement;
  • permettre aux auteurs qui le désirent d’obtenir la suppression de leurs textes/images des données d’entraînement du modèle.

Cette approche est pragmatique : elle respecter les intérêts de chacun moyennant des efforts raisonnables de part et d’autre.

A l’ inverse, un scénario « conservateur » verrait un repli des détenteurs de droits sur leurs données propres et le développement de modèles génératifs fermés comme l’ a fait Getty Images. Seules les documents tombés dans le domaine public (et potentiellement ceux générés de manière synthétique) resteraient disponibles pour l’ entraînement sans contrainte…

4. Sources et références

Droits d’auteur et IA générative

Pour commencer l’année 2024, je voudrais vous parler de la situation actuelle des droits d’auteurs pour les modèles génératifs.

C’ est un sujet d’une actualité brûlante puisque deux litiges à ce sujet sont actuellement devant les tribunaux anglo-saxons : un premier litige oppose en Grande-Bretagne la bibliothèque d’ images Getty Images à Stability AI, une société qui fournit un modèle générateur d’ images. La seconde action en justice est intentée aux Etats-Unis par le New York Times contre OpenAI et Microsoft.

Dans cet article, je vais exposer la situation de manière générale. Je couvrirai plus précisément le litige entre le New York Times et OpenAI / Microsoft dans le prochain article, et je tenterai aussi de mentionner quelques pistes d’ évolution possibles.

Comme nous allons le voir, l’ impact potentiel pour le secteur de l’ IA générative et de ses utilisateurs est grand. Je voudrais vous encourager à parcourir le texte qui suit. Il peut sembler aride et pointilleux au premier abord mais l’ enjeu en vaut la chandelle.

Disclaimer : je ne suis pas juriste et donc ce qui suit n’a pas valeur d’avis juridique.

Cette réserve étant émise, allons-y…

1. Quelques notions de droits d’auteur

Le droit d’auteur confère à l’auteur d’une activité créatrice un monopole sur les revenus résultant de l’exploitation économique de l’oeuvre. En pratique, ces revenus découlent de la réalisation de reproductions de l’oeuvre et de sa communication au public, qui ne peuvent pas être réalisées sans l’ autorisation préalable de l’auteur (en général contre rétribution). Le droit d’auteur confère aussi à l’auteur des droits moraux sur l’oeuvre, comme sa paternité, mais ceci sort du cadre de cette discussion.

Ce droit d’ exploitation est limité dans le temps, à savoir 70 ans après la mort de l’ auteur pour la Belgique; l’ oeuvre passe ensuite dans le domaine public, ce qui signifie qu’ elle peut alors être exploitée économiquement sans contrainte.

Le terme d’ activité créatrice est assez large et reprend non seulement les créations artistiques littéraires, photographiques, musicales, sonores, audiovisuelles, mais aussi les logiciels informatiques et les créations d’ art appliqué (vêtements, meubles, plans d’architecte, objets, graphismes, bijoux…).

Par contre, un texte législatif ou administratif, une image satellite ou une peinture réalisée par un singe ne sont pas considérés comme des créations de l’ esprit humain. Une invention technique n’ est pas non plus protégable par le droit d’ auteur mais peut être protégée par brevet.

Enfin, certaines dérogations au droit d’auteur sont acceptées parce qu’ elles ne portent pas atteinte à l’ exploitation normale de l’oeuvre tout en servant l’ intérêt général. Par exemple, la présentation d’ extraits d’ oeuvres à des fins éducatives dans l’ enseignement ou d’ information par les médias sont autorisés, tout comme les utilisations à des fins de recherche académique.

Regroupées sons le vocable anglo-saxon de fair use ces exceptions sont importantes car elles interviendront dans la discussion relative à l’IA. Entraîner un modèle génératif sur des données soumises au droit d’auteur relève-til du fair use ? C’est une question complexe, au coeur du litige entre OpenAI et le New York Times.

Ceci étant dit, voyons maintenant les points de frictions entre modèles génératifs et droits d’ auteur. Il y a deux problèmes principaux, le problème de l’ entraînement (amont) et celui de la génération (aval), ainsi qu’un troisième problème connexe, celui de la création artificielle. Passons-les successivement en revue.

2. Le problème amont : l’ entraînement des modèles

Le problème de l’ entraînement est simple à comprendre : les modèles génératifs ont besoin d’ un volume de données digitales prodigieux pour leur entraînement. Ces données sont issues de copies de l’ ensemble d’ Internet réalisées au fil du temps par des programmes qui ont siphonné toutes les données publiquement accessibles qu’ ils pouvaient trouver : réseaux sociaux, engins de recherche, librairies digitales, journaux, banques de données statistiques, blogs, encyclopédies etc….

Ces données sont consolidées dans d’ immenses agrégats dont le plus connu est le Common Crawl, accessible ici.

Cependant, « publiquement accessible » sur Internet ne signifie aucunement que l’ auteur confère un quelconque droit à l’ utilisateur au-delà de la simple consultation en ligne. Et donc pas d’ autorisation implicite d’ entraîner un modèle IA…

Pour aggraver les choses, ce problème est quasi-universel. A l’ exception d’ une petite minorité de textes relevant du domaine public et des quelques textes générés par IA dont le statut est actuellement flou, pratiquement tout le reste tombe automatiquement sous le régime des droits d’ auteur.

Si le problème est simple à comprendre, force est de constater que sa résolution est dantesque : l’ ensemble d’ Internet cela veut dire des millions, voire des dizaines de millions d’ auteurs concernés, des textes dont la paternité est souvent difficile à attribuer, pour lesquels il faudrait obtenir l’ accord préalable du détenteur des droits…

C’ est pourquoi les grands acteurs du secteur (OpenAI et autres) ont cherché à court-circuiter le problème en déclarant que l’ entraînement des modèles relève du fair use et ne nécessite donc pas l’ accord préalable des détenteurs de droits.

L’ argument principal des géants de l’ IA est que les algorithmes de génération ingurgitent tellement de données d’ auteurs différents et les transforment à tel point que les droit individuels des auteurs ne sont pas impactés. Ils invoquent aussi le fait qu’ au plus l’ accès aux données est large, aux meilleurs les modèles seront, et que leur interdire cet accès correspond à un arrêt de mort pour une industrie symbolique du progrès et qui pourra apporter énormément à la société dans le futur.

Les auteurs rétorquent que les algorithmes exploitent abusivement leurs créations dans un but lucratif et susceptible de porter atteinte à leurs droits d’ exploitation. Ils mettent en avant des exemples de réalisations IA très proches voire identiques de leurs propres oeuvres…

Mon intuition de profane est que les arguments techniques du secteur IA sont valides (caractère transformatif et volume des données d’entraînement), mais l’argument de l’utilité publique est spécieux et sert de paravent aux buts lucratifs des acteurs de l’ IA générative…

La question des droits sur les données d’entraînement est cruciale pour l’ ensemble de l’ industrie de l’ IA, largement basée sur des algorithmes d’apprentissage machine gourmands en données de tout type, même si l’ IA générative (principalement images et texte) cristallise le problème vu la concurrence potentielle avec les auteurs.

Cependant, même si les développeurs obtiennent d’ une manière ou d’ une autre la permission d’ utiliser les données couvertes par droit d’ auteur pour l’ entraînement des modèles, cela ne signifie pas nécessairement que les utilisateurs sont libres de produire et diffuser leurs générations comme ils l’ entendent….ce qui nous amène au problème aval.

3. Le problème aval : la génération

Le problème de la génération est le suivant : si un utilisateur utilise un programme IA pour produire une image (ou un texte) qui est substantiellement similaire à une oeuvre protégée, qui est le responsable de la contrefaçon (plagiat) potentielle ?

Est-ce la société qui a produit l’ outil IA ? L’ utilisateur qui a guidé l’ outil dans la génération ? Celui qui a diffusé l’ image ? La plateforme qui a servi à la diffusion de l’ image ?

Il est utile de savoir que les sociétés qui mettent les modèles à disposition ont tendance à repousser cette responsabilité sur l’ utilisateur dans leurs condition d’ utilisation: leur position est que l’utilisateur pilote l’ outil via le prompt et est responsable de ce qu’ il génère et de l’ utilisation qu’ il en fait ensuite.

Et le risque est réel. Il arrive aux modèles d’image et de langage de reproduire des images ou des textes similaires à ce qui se trouvait dans leur données d’ entraînement.

Complication majeure, ceci est possible non seulement si l’ utilisateur le demande mais également sans que l’utilisateur en ait fait la demande explicite .Il est par exemple possible de recréer des images de personnages ou véhicules de Star Wars sans que ces termes apparaissent dans le prompt. Il en va de même pour les textes générés par le New York Times dans le litige qui l’ oppose à OpenAI : le journal a réussi à reproduire des copies presque exactes de certains de ses articles sans que le nom du journal apparaisse dans le prompt.

En tout état de cause, cela affaiblit la position de Ponce Pilate des développeurs de modèles : difficile de rejeter la responsabilité sur l’ utilisateur du modèle si le modèle crée des contrefaçons à l’ insu de ce dernier…la question des responsabilités respectives ne sera pas facile à trancher.

Si vous désirez comprendre cette question plus en détail, je vous réfère à l’excellent article de Gary Marcus et Reid Soutern publié il y a quelques jours dans IEEE Spectrum, et accessible ici.

Quoi qu’il en soit, le problème de la génération est tributaire de la résolution du problème de l’ entraînement. La meilleure issue serait que les développeurs de modèle trouvent un accord (pécunier) avec les auteurs qui permettrait à la fois l’entraînement ET la génération sans contrainte, faisant d’une pierre deux coups.

Par contre, si la résolution de la question de l’ entraînement se fait au détriment des auteurs – par exemple, si la justice tranche en faveur du fair use -, le risque est grand que ces derniers se retournent contre les images générées par les utilisateurs pour faire valoir leurs droits, déplaçant le coeur du litige de l’entraînement vers la génération.

4. La création artificielle

Comme on l’a vu plus haut, le droit d’auteur actuel implique la création par un être humain. Mais pour la première fois, une activité créative non humaine devient possible. La génération par l’ IA introduit donc une autre question juridique : oublions un instant les droits des auteurs existants et imaginons une création artificielle tout à fait originale. Cette oeuvre mérite-t’ elle à son tour une protection relevant d’une forme de droit d’ auteur ?

Et si une future législation devait attribuer un droit d’auteur, à qui reviendrait-il ? le propriétaire du modèle ou l’utilisateur, voire peut-être un jour à l’ IA elle-même ?

Enfin, il faudra peut-être distinguer la création artificielle entièrement autonome de celle où l’ humain continue à jouer un rôle de pilote, par exemple via un prompt, assisté par une IA réduite à un rôle d’ outil génératif…

La question de la création artificielle est importante sur le principe, mais sa résolution est moins urgente que les deux autres. Il est donc probable que cette question reste ouverte pendant quelque temps.

5. Réflexions

Le droit d’auteur est très ancien. Au cours de son histoire, il s’est régulièrement retrouvé en conflit avec le progrès technologique. Imaginez la réaction des peintres du XIX siècle confrontés aux premières photographies ou celle des auteurs de romans face aux premières photocopieuses dans les années 1970, sans parler des cassettes audio et des magnétoscopes VHS dans les années 1980…le droit d’auteur a évolué au fil du temps sans toutefois cesser de jouer son rôle protecteur pour les créateurs. L’avènement des modèles génératifs n’est que la dernière péripétie de cette co-évolution.

Un dénouement radical -quoique improbable- serait l’interdiction pure et simple des modèles génératifs. Un scénario analogue a eu lieu en 2001 avec l’interdiction de Napster suite à une procédure initiée par le groupe Metallica. Napster permettait aux utilisateurs de télécharger des morceaux de musique gratuitement indépendamment des droits d’auteur applicables, une transgression certes plus directe que celle reprochée aux modèles génératifs! Néanmoins, elle rappelle que la technologie n’ a pas toujours gain de cause dans sa remise en cause des droits d’auteur.

Il est aussi intéressant de noter que l’ European AI Act ne traite des droits d’auteurs que de manière indirecte, en demandant aux développeurs de modèles génératifs de spécifier quelle oeuvres soumises aux droits d’ auteur ont été utilisées pour l’ entraînement du modèle. Ce n’ est pas illogique car les droits d’ auteur sont soumis à un ensemble de directives européennes séparées et les clarifications essentielles apparaîtront probablement lors d’ une future itération de ces dernières.

Il est d’ ailleurs fort possible que différentes juridictions adoptent des approches différentes. Rien ne permet d’affirmer que que les Etats-Unis et l’ Europe suivront la même logique, d’autant que le risque de capture réglementaire n’est pas exclu au vu des moyens financiers des acteurs privés en présence. Le Japon a déjà pris une initiative dans le domaine, autorisant l’ entraînement de modèles génératifs sur des données sujettes aux droits d’ auteur (moyennant certaines limitations).

Et enfin, une ultime complication : quid des modèles génératifs open-source ? Est-il possible d’ organiser une éventuelle rétribution des auteurs en l’absence de flux financiers des utilisateurs vers les développeurs de modèle ? Ces modèles devront-ils se contenter de données du domaine public, voire synthétiques pour leur entraînement ? Ou bien vont-ils disparaître ? Comme vous le voyez, il y a matière à réfléchir, et les questions sont à la fois d’ ordre technique, juridique et financier.

6. Sources et références

Une vidéo particulièrement intéressante sur les modèles de langage

Je vous invite de tout coeur à visionner la vidéo suivante publiée cette semaine par Andrej Karpathy sur Youtube. Andrej Karpathy est un des chercheurs les plus en pointe en IA. Il est un des cofondateurs d’ OpenAI et combine l’ excellence technique avec un remarquable talent pédagogique.

La vidéo fait le tour du fonctionnement et des perspectives des modèles de langage. Le niveau est plus technique que celui de mes articles habituels tout en restant très accessible.

Dans la vidéo, Andrej Karpathy explique successivement :

  • comment les modèles de langage génèrent le texte;
  • l’ entraînement des modèles de langage;
  • le principe de fonctionnement des modèles de langage;
  • le passage d’ un modèle généraliste à un modèle conversationnel;
  • les agents : utilisation d’ outils par les modèles de langage;
  • le futur des modèles de langage : multimodalité, raisonnement, auto-amélioration;
  • le modèle de langage comme futur système d’ exploitation;
  • risques et failles de sécurité spécifiques aux modèles de langage.

Vous pouvez visionner la vidéo ici :

J’ en profite aussi pour vous rappeler la liste des chercheurs en IA à suivre sur X/twitter (dont Andrej Karpathy fait évidemment partie), que j’ avais publié dans un article précédent que vous pourrez consulter ici.

Etat des lieux de l’IA générative en septembre 2023

Près de dix mois après la mise sur le marché de la première version de ChatGPT, le marché a bien évolué et semble s’orienter vers une offre structurée autour des géants de la tech américaine. En effet, chacun des GAFAM a établi sa propre stratégie et sa propre offre d’IA générative.

Le moment est donc propice pour faire un tour d’horizon de la situation actuelle et de ce que nous pouvons raisonnablement attendre dans un futur proche.

1. Les grands acteurs

A tout seigneur, tout honneur. Parlons d’abord d’ OpenAI. OpenAI est actuellement le leader du marché avec ses modèles conversationnels chatGPT 3.5 et chatGPT 4, qui comptent environ 100 millions d’utilisateurs enregistrés. Ce leadership est aussi technologique, ChatGPT4 étant le modèle actuellement le plus performant. Mais la taille du modèle le rend coûteux à exploiter, qui s’ajoute au coût de l’entraînement de ce dernier. C’est pourquoi OpenAI a déclaré concentrer ses efforts sur une version « 4.5 » de ChatGPT aux performances comparables à chatGPT4 mais coûtant moins cher à l’ exploitation. Le développement de GPT5 se fera ultérieurement.

En parallèle, OpenAI renforce la multimodalité de ChatGPT4 qui deviendra très prochainement non seulement capable d’ interpréter les images soumises par les utilisateurs mais sera aussi couplé au nouveau modèle de génération d’ image DALL-E-3 (également développé par OpenAI). ChatGPT sera bientôt aussi capable d’interagir de manière verbale dans les deux sens (écoute et parole), ce qui ouvre un champ de nouvelles applications interactives.

L’ avance d’ OpenAI est significative mais pas insurmontable, surtout face à des concurrents aussi puissants que Google. Pour utiliser le terme à la mode dans le secteur, la « douve » autour du château n’est pas profonde. OpenAI cherche donc à maintenir son leadership en s’ alliant avec des investisseurs aux poches profondes comme Microsoft, qui a basé son offre d’ IA générative sur les produits OpenAI. Ce qui nous amène tout naturellement à Microsoft.

Microsoft dispose d’ un écosystème de produits matures et utilisés quotidiennement par plus d’ un milliard d’ utilisateurs, à commencer par Windows et Office365. La stratégie de Microsoft est de complémenter chacun de ces produits par un « copilote » qui va assister l’ utilisateur lors de la rédaction d’ un texte (MS Word), d’ un tableur (Excel) ou d’ une présentation (Powerpoint). Et un autre « copilote » assistera l’ utilisateur dans ses interactions avec le système d’ exploitation Windows, à travers une interface conviviale et interactive pour modifier la configuration système ou gérer les fichiers par exemple. Encore un autre copilote dans Teams va proposer de rédiger les minutes d’ une réunion ou de résumer les points d’ action. Idem avec Outlook, où vous pourrez demander de résumer une chaîne d’ emails et de proposer une réponse. Et comme déjà mentionné, tout ceci est basé sur les produits d’ OpenAI.

La stratégie de Microsoft est donc d’ intégrer « naturellement » l’ IA dans le travail cognitif via les applications bureautiques et partant, de rendre les produits Microsoft plus productifs et attractifs que la concurrence.

L’approche de Google ressemble un peu à celle de Microsoft, Google essayant lui aussi d’intégrer des assistants AI dans sa suite bureautique Google Suite. Mais contrairement à Microsoft, le moteur IA génératif utilisé a été développé en interne (Bard).

Google développe aussi un modèle génératif haut de gamme destiné à concurrencer OpenAI : Gemini. Gemini sera un modèle intrinsèquement multimodal capable de déchiffrer et générer simultanément texte, images, audio, vidéo, modèles 3D et graphes. Pour mettre au point ce modèle, Google se base sur l’ excellence de ses équipes de pointe IA européennes (Google Deepmind) et américaines (Google Brain), ainsi que de l’ immense volume de données à sa disposition pour l’ entraînement, notamment auprès de sa filiale Youtube…

Vu la puissance de Google dans le domaine IA, il est presque surprenant qu’ il se soit fait damer le pion par OpenAI. C’est d’ ailleurs cette quasi toute-puissance de Google en IA qui avait poussé certains (dont Elon Musk) à la création d’ OpenAI fin 2015….

Il ne reste qu’ une inconnue : la date de lancement de Gemini. Elle est réputée proche. Nous verrons dans quelle mesure les cartes seront alors redistribuées.

Apple reste très discret sur ses projets d’ IA générative mais met les bouchées doubles pour développer un modèle qui serait appelé Ajax. On en ignore les détails mais Apple travaille sur la multimodalité. Une intégration avec Siri semble logique mais nous sommes à ce stade réduits à la spéculation.

Facebook/Meta a choisi une autre voie, et a, après quelques hésitations, a décidé de publier ses modèles génératifs Llama (suivi de Llama 2) en open-source. Concrètement, cela signifie que n’ importe qui est en mesure de télécharger le modèle et de le faire fonctionner localement.

Le modèle est disponible en plusieurs tailles (7, 13 et 70 milliards de paramètres); au plus la taille est grande au plus le modèle est efficace, mais au plus il est exigeant en mémoire et en puissance de calcul. Le plus petit modèle fonctionne localement sur un ordinateur de bureau disposant d’au moins 16GB de mémoire.

Vous pouvez dialoguer avec les versions 7B, 13B et 70B de Llama2 en cliquant ici, après avoir sélectionné le modèle en bas à droite de l’écran.

Le choix de l’ open source par Meta lui permet de bénéficier de toutes les innovations de la commuauté des chercheurs et des programmeurs open-source, mais le fait de diffuser ces modèles dans la nature augmente les risques d’utilisation malveillante.

Finalement, Amazon a choisi de s’ allier avec Anthropic qui possède le modèle Claude. Il s’ agit d’ un partenariat qui ressemble à celui entre OpenAI et Microsoft : accès privilégié au modèle contre investissement. Amazon étant le principal acteur dans le domaine du cloud (Amazon Web Services), il y a gros à parier que des interfaces de programmation vers Claude seront très prochainement disponibles pour les applications tournant sur AWS.

Les grands acteurs sont clairement engagés dans une course à la multimodalité. La génération de texte est aujourd’hui relativement bien maîtrisée, le défi principal est maintenant de traiter différents flux d’ information en parallèle qui se complémentent et s’ enrichissent mutuellement.

2. Et en Europe….

La scène de l’ IA générative en Europe ne contient pas de géants mais environ 150 start-ups y sont actives, dont environ un tiers est basé au Royaume-Uni, suivi par l’ Allemagne puis la France.

Faisons un bref tour d’ horizon des start-up les plus en vue dans ces trois pays :

Le Royaume-Uni abrite Stability AI, qui est un des leaders dans le domaine de l’ IA générative d’images, qui vous pouvez essayer ici, ainsi que Synthesia qui est spécialisée dans la génération automatisée de vidéos dans lesquelles un acteur de synthèse lit un texte avec une voix artificielle. Enfin, même si ce n’est plus une start-up, il faut quand même mentionner un des leaders mondiaux de la recherche en IA, Google Deepmind qui se trouve lui aussi à Londres.

L’ Allemagne héberge Aleph Alpha qui a un mis au point un modèle génératif de texte appelé Luminous et met l’accent sur le caractère souverain de sa technologie, ainsi que DeepL, le spécialiste de la traduction automatisée.

Et la France compte quant à elle dans ses rangs Mistral et Poolside AI.

Mistral a été fondée par des anciens de Google Deepmind et de Meta, et vient de publier son premier modèle génératif en open-source, que vous pouvez essayer ici, après avoir sélectionné le modèle en bas à droite de l’écran.

Mistral a bénéficié d’une infusion de capital de 113 millions de dollars en juin 2023. Le but de Mistral est de rendre l’ IA générative utile pour les entreprises, et ne s’adresse pas au grand public. Poolside AI est une société américaine à l’ origine qui a déménagé à Paris suite à une augmentation de capital organisée par le milliardaire de la tech Xavier Niel. Poolside AI se spécialise dans les modèles génératifs de code informatique.

Toujours au sujet de la France, il faut noter la proactivité des autorités françaises qui ont annoncé un plan public de 500 millions d’euros à destinations des start-ups dans l’ IA, ainsi que l’ initiative de Xavier Niel qui a annoncé une série d’ investissements stratégiques dans l’ IA pour environ 200 millions d’euros, afin de faire émerger un champion européen de l’ IA. Une partie de cet investissement sera destiné à acheter un supercalculateur auprès de Nvidia qui sera accessible dans le cloud.

En effet, un point faible de l’ Europe reste le manque relatif de puissance de calcul disponible dans le cloud européen. Et rattraper ce retard n’ est pas chose aisée car les grands acteurs américains aux poches profondes mentionnés ci-dessus phagocytent la quasi-totalité de la production de coprocesseurs graphiques Nvidia, dont les modèles A100 et H100 sont essentiels pour l’ entraînement et l’ exploitation des grands modèles de langage dans le cloud.

L’ Europe dispose d’excellentes compétences académiques et scientifiques dans l’ IA, les ressources humaines sont disponibles. Mais notre autre grand point faible reste le volume relativement modeste des capitaux disponibles pour investir dans des jeunes pousses IA. Les start-ups que j’ai mentionnées ci-dessus ont bénéficié d’ augmentations de capital de l’ordre de 100 millions d’euros chacune ce qui reste une goutte d’ eau face à la puissance financière des géants américains de la tech et les augmentations de capital possibles dans la Silicon Valley.

Le risque est donc toujours présent de voir une start-up européenne percer, grandir pour se faire finalement racheter par un géant aux poches profondes, comme c’ est arrivé pour Deepmind, Skype et Arm…

3. Le reste du monde

La Chine est très active dans le domaine des modèles de langage et aurait déjà dévelopé environ 70 « grands » modèles selon le PDG de Baidu. Ces modèles nous sont relativement peu accessibles car ils mettent l’ accent sur le Mandarin. Un point intéressant est que la Chine cherche à développer un standard national pour les modèles de langage, afin de favoriser la productivité industrielle et la croissance post-pandémie. Reste à voir dans quel mesure cette standardisation ne sera pas contre-productive, par exemple en exigeant d’ intégrer des narratifs idéologiques ou politiques dans les modèles.

Et enfin, je ne puis clôturer sans mentionner Falcon, un modèle mis au point par un institut de recherche d’ Abu Dhabi. Il s’agit ni plus ni moins que du plus grand modèle open-source actuellement disponible, avec 180 milliards de paramètres! Les chercheurs du Technology Innovation Institute (TII) ambitionnent aussi de publier d’ autres modèles plus spécifiques, par exemples orientés vers la médecine ou le droit, et visent, eux aussi, la multimodalité. L’ objectif est de concurrencer OpenAI et de donner un rôle au Proche-Orient dans une course actuellement dominée par les Etats-Unis et la Chine.

Quels acteurs l’ emporteront ? L’ avenir nous le dira…

4. Notes et références

Voici quelques références plus approfondies si vous désirez aller plus loin :

Les risques liés à l’Intelligence Artificielle

Comme le dieu Janus, l’ Intelligence Artificielle possède deux visages. Elle peut à la fois servir au progrès de la société mais également lui nuire. Tout dépend de l’application qui en est faite par les personnes et les organisations qui l’exploitent.

Les modèles généralistes (de langage ou autres) exemplifient parfaitement cette dualité. Leur capacité à interagir naturellement avec notre perception en utilisant nos codes linguistiques et visuels facilite leur intégration dans nos interactions quotidiennes. Ces modèles interpellent donc à juste titre. Comme toute nouvelle technologie, ils présentent des opportunités et des risques, mais les déclarations sensationnalistes ou catastrophistes que l’on entend souvent sur le sujet tendent à exacerber le débat sans permettre une analyse raisonnable des vrais enjeux.

Un mot tout d’abord sur le risque existentiel dont il a beaucoup été question ces derniers mois.

Le scénario souvent présenté est celui d’une IA autonome qui commençerait à s’auto-améliorer jusqu’à atteindre un niveau d’intelligence telle que nous serions incapables de la maîtriser; cette dernière se retournerait alors contre nous, pour finalement nous asservir voire nous exterminer.

Ces déclarations apocalyptiques sont souvent réalisées par différents types de personnalités, y compris des acteurs-clé du secteur. Certaines personnes sont légitimement convaincues que l’IA représente un risque existentiel et qu’il est nécessaire de légiférer d’urgence pour éviter un désastre. Le problème est que d’autres personnes exploitent ensuite ces messages pour des raisons opportunistes, et il est difficile de savoir dans quel camp se trouve réellement chaque acteur.

Et si vous vous demandez pourquoi des acteurs du secteur auraient intérêt à mettre en avant les risques de ce dernier, pensez que certaines sociétés déjà établies ont tout intérêt à pérenniser leur situation établie en profitant de la mise en place de barrières réglementaires compliquant l’arrivée de nouveaux acteurs. En parallèle, certains médias tirent avantage du sensationnalisme ambiant puisque la peur fait vendre.

De plus, ces idées de risque existentiel technologique s’intègrent bien dans certains courants philosophiques en vogue au sein de la Silicon Valley, comme le Transhumanisme et le Long-termisme. Ces mouvements sont basés sur le narratif d’un futur radicalement transformé par la technologie en général et l’IA en particulier, et dans lequel l’humanité se retrouve confrontée à des choix prométhéens. Lorsqu’on plante un tel décor, il devient facile de se positionner comme prophète autoproclamé ou comme sauveur potentiel de l’humanité…

La réalité est beaucoup plus nuancée. Nous sommes encore loin d’une intelligence artificielle généraliste comparable au niveau humain. La plupart des obstacles (comme les hallucinations) existent depuis longtemps et seront probablement très difficiles à éliminer. La performance impressionnante des modèles de langage découle plus de leur habileté à restituer adroitement les volumes immenses de données sur lesquels ils ont été entraînés que d’une capacité à raisonner sur des modèles abstraits. Enfin, il faut garder en mémoire que contrairement aux humains, les systèmes artificiels n’ont pas d’objectif intrinsèque. Ils cherchent à atteindre les objectifs que nous leur fixons, parfois de manière incorrecte.

Bien sûr, il faut rester vigilant car les modèles continuent de progresser. Les grands acteurs du secteurs planchent sur la multimodalité (traitement intégré des textes, images, vidéos, audio…) et l’amélioration des mécanismes de raisonnement. Pendant ce temps des modèles open-source de plus en plus performants deviennent disponibles et rendent possible un champ d’expérimentation très large.

Quoi qu’il en soit, le risque paraît encore assez lointain et il faut se rappeler que la quasi-totalité des progrès technologiqes dans le domaine sont réalisés par des acteurs légitimes, commerciaux ou académiques. La mise en place de structures de régulation et de supervision de ces progrès devrait donc permettre d’encadrer et de gérer ce risque dans le futur.

Mais il n’y a pas besoin d’être super-intelligent pour faire de super-dégâts…

Dans le reste de cet article, je vais présenter les différentes risques existant aujourd’hui et tenter une analyse de chacun d’entre eux. On peut les regrouper en quatre grandes catégories :

Figure 1 : Types de risques liés à l’Intelligence Artificielle

1. Risques de désalignement

Le désalignement se produit lorsque nous donnons un objectif légitime à l’IA, mais cette dernière cherche à l’atteindre de manière inadéquate, soit en trichant, soit en ne respectant pas certaines contraintes essentielles, par exemples légales ou éthiques.

Ce genre de risque est particulièrement présent lorsque l’IA sera consultée pour prendre des décisions administratives impactant directement les gens, comme une décision d’octroi d’une subvention ou d’une assistance, ou encore d’allouer un crédit. Les décisions à caractère sécuritaire ou judiciaire sont également fortement concernées, ainsi que celles liées à l’éducation et l’emploi.

L’IA se base en général sur un ensemble restreint de paramètres pour prendre une décision, et les données d’entraînement utilisées peuvent contenir des déséquilibres reflétant des biais historiques ou autres. Ceci exclut aussi la prise en compte de facteurs humains subjectifs difficiles à quantifier et qui expliquant pourquoi de ces décisions requièrement souvent aujourd’hui un rendez-vous en personne.

Ce problème peut être approché de deux manières. Tout d’abord, la prévention : il est important de s’assurer que les algorithmes employés ne présentent pas de biais et sont capables de fournir une explication de leur décision. L’utilisation de l’IA doit aussi se faire de manière transparente et les personnes concernées doivent en être informées au préalable. C’est un travail de législation et de réglementation.

L’ explication fournie par l’algorithme doit aussi être « actionnable » pour permettre à la personne impactée de contester la décision prise. La possibilité de recours est ici essentielle, de préférence sans passer par la voie judiciaire.

Ces problèmes d’alignement se sont déjà produit lors d’automatisations dans le passé et se produiront encore. La bonne nouvelle est que l’éthique de l’IA constitue un domaine de recherche et d’analyse à part entière et que les incidents de désalignement sont connus et répertoriés. L’attention apportée par les académiques et les spécialistes dans l’industrie et les administrations sur ces sujets devrait permettre de limiter leur impact et leur récurrence dans le futur.

2. Risques d’exploitation malveillante

Par exploitation malveillante, on envisage les cas où un être humain exploite volontairement les capacités d’un modèle IA à des fins préjudiciables. Ceci est bien sûr possible, toute technologie n’étant en fin de compte qu’un outil soumis à la volonté de son possesseur. Nous sommes ici dans un cas différent du *désalignement* cité plus haut. Ici, les buts de la machine et de l’humain sont alignés. C’est l’humain qui est mal intentionné.

Un problème est qu’il y a peu de freins à l’acquisition et l’exploitation de l’IA par quiconque. Les algorithmes et modèles sont connus, la puissance informatique aisément disponible. Des modèles de langage *open-source* puissants sont actuellement disponibles et peuvent être adaptés à des fins néfaste sans contrôle. Des acteurs malveillants ont déjà créé FraudGPT, un modèle de langage spécialisé dans l’aide à la création de cyberattaques….

Ceci est préoccupant car les modèles de langage augmentent les risques de fraude informatique par usurpation d’identité et ingéniérie sociale, de génération de virus et logiciels malveillants; ils facilitent la création de désinformation ainsi que la fraude éducative et académique (recours à des textes auto-générés).

La principale défense à ce genre de risque est qu’il est également possible d’utiliser l’IA de manière défensive pour les contrecarrer. Les capacités qui rendent ces modèles attractifs aux personnes mal intentionnées sont en général les mêmes que celles qui vont permettre aux personnes bien intentionnées de les empêcher de nuire. Si l’IA peut aider à mener des cyberattaques, son potentiel en cyberdéfense est tout aussi grand.

C’est pourquoi la meilleure parade ici est d’encourager sans délai le développement de ces activités défensives.

Mais le discours qui consiste à dire que cela résultera en un simple réalignement des équilibres entre capacités antagonistes n’est que moyennement rassurant. En effet, l’IA a le potentiel de modifier ces équilibres dans différents domaines et on ne peut exclure qu’un de ces rééquilibrages ne se fasse dramatiquement à l’avantage des acteurs malveillants dans un domaine. Rien ne dit que ces rééquilibrages seront toujours symétriques ou à tout le moins suffisamment équilibrés pour empêcher des tragédies. Le risque de développement de nouveaux agents pathogènes assisté par l’IA est souvent pris en exemple de ce genre de danger.

Et force est de constater que le bond qualitatif pour atteindre un de ces compétences semble nettement plus faible que celui nécessaire pour l’émergence d’un risque existentiel. Nous sommes ici dans quelque chose de plus concret, de plus plausible à moyen terme. Selon moi, c’est ici que se situe le risque le plus important.

3. Risques structurels

Les risques structurels sont d’une autre nature. Cette fois l’exploitation du modèle est légitime et ce dernier s’acquitte correctement de sa mission. Mais cette nouvelle capacité apportée par l’IA déséquilibre indirectement la société.

Ce risque est inhérent à toute nouvelle technologie mais quand une technologie comme l’IA a un potentiel généraliste et une portée horizontale, la multiplicité des domaines d’application augmente ce genre de risques.

Il est dificile d’évaluer correctement les risques structurels car ils dépendent plus de la société que de l’IA en tant que telle. Parmi eux on peut citer le risque que l’IA se substitue à une partie de l’emploi ou que l’IA crée une société très inégale.

Ces risques doivent être mis en balance avec les impacts structurels positifs qui ne manqueront pas d’apparaître aussi.

Il est difficile de faire des prédictions ici, si ce n’est pour dire que les évolutions structurelles sont en général lentes et ne sont souvent pas à sens unique. De plus, ces évolutions ne peuvent être aisément distinguées des autres évolutions qui parcourent la société en tous sens.

Cela fait plusieurs siècles que l’automatisation est soupçonnée de détruire des emplois mais après 250 ans de révolution industrielle il n’y a jamais eu autant d’emplois malgré d’innombrables déclarations alarmistes…et si la productivité augmente, c’est plutôt une bonne nouvelle pour la société.

Je crois qu’il faut rester circonspect ici; si bouleversement il devait y avoir, les états et autres acteurs structurels ont en principe le temps et les moyens d’y faire face. Après tout, notre société est en transformation permanente…

4. Risque accidentel

Il s’agit du cas le plus simple à comprendre. L’IA est incompétente et n’arrive pas à s’acquitter de la tâche qui lui a été confiée, comme une voiture autonome qui commettrait un accident.

Ces cas aussi sont plus faciles à adresser car les dangers potentiels créés par un produit mis sur le marché ne sont pas une notion nouvelle : une voiture (classique) est un engin dangereux et se voit donc soumise à des exigences de conformité et de contrôle technique pour être autorisé à rouler. En cas d’accident imputable à un défaut technique, la responsabilité du constructeur peut être engagée. Le niveau d’exigences placé sur le produit dépend du niveau de tort qu’il peut causer en cas de défaillance, le but étant de prévenir autant que possible les accidents.

L’arrivée de l’IA dans les produits va s’inscrire dans cette logique de prévention et de remédiation, potentiellement avec des certifications et tests séparés lorsque l’utilisation de l’IA comporte des risques.

C’est d’ailleurs le chemin suivi par la directive Européenne sur l’IA qui se base sur l’utilisation du produit contenant de l’IA pour établir le niveau de risque et partant, les exigences à satisfaire au préalable avant mise sur le marché.

Conclusion

Il faut reconnaître que le tableau est contrasté, la relativisation du discours alarmiste sur les risques existentiels ne peut masquer le potentiel d’utilisation malveillante de l’IA susceptible de causer une catastrophe de grande ampleur à terme.

Plus précisément, des listes de compétences dangereuses ont été établies par des chercheurs. Si des modèles IA devaient développer de telles compétences à l’avenir, nous serions en péril. Je vous rassure, aucun modèle IA ne possède de telles capacités à ce jour.

Voici une liste de compétences dangereuses établie par les chercheurs de Google Deepmind dans cet article :

  • La capacité à mener des cyberattaques de manière autonome;
  • la capacité de choisir délibérément de mentir à des humains et de soutenir ensuite un narratif cohérent prenant en compte ces mensonges;
  • la capacité de persuader les humains que certains narratifs (même faux) sont corrects, et de convaincre les gens de faire des commettre des actes qu’ils ne feraient normalent pas;
  • la capacité de mettre en place des stratégies politiques complexes tenant compte des acteurs en présence et du contexte socioéconomique;
  • la capacité d’acquérir et/ou de construire des armements existants ou novateurs (par exemple : armes biologiques);
  • la capacité d’ établir des plans à long terme, à travers différents domaines, et de les adapter de manière évolutive en fonction du l’évolution du contexte ou des obstacles rencontrés;
  • la capacité à créer de nouveaux systèmes IA sans assistance;
  • la capacité à identifier le contexte de sa propre utilisation; Le système sait qu’il est un modèle IA et a une connaissance de lui-même et de son environnement;
  • la capacité à s’évader de son environnement d’origine et s’installer ailleurs.

Si cette liste peut sembler angoissante, il faut garder à l’esprit qu’il ne s’agit que d’une liste de garde-fous. Elle ne signifie pas que nous sommes sur le point d’atteindre une de ces compétences.

Le risque n’est pas imminent et il n’est pas trop tard pour agir mais il ne faut pas traîner. Concrètement, nous pouvons nous protéger contre ces risques de trois manières, qui peuvent éventuellement être combinées :

  • lévolution culturelle ou des comportements : nous adaptons nos habitudes de vie pour les rendre les plus compatibles possibles avec les impacts de l’IA
  • la mitigation : nous adoptons des mesures de protection en termes de processus, d’organisation ou de technologie afin de réduire les risques
  • la réglementation : nous encadrons légalement la technologie, en réglementant certaines applications et en en interdisant d’autres.

Cela justifie les idées de mettre en place des organisations de gouvernance et de surveillance de l’ IA. Ces structures devraient se focaliser sur les risques d’utilisation malveillante et l’identification des progrès menant à des compétences dangereuses.

Mais ces contrôles ne doivent pas non plus étouffer la recherche. Le potentiel bénéfique de l’IA est important et nous ne manquons pas de problèmes sérieux dans lesquels l’IA peut nous assister positivement. Par exemple, la recherche de nouveaux matériaux ou de nouveaux médicaments.

Bill Gates estime dans son article cité en référence que les impacts de l’IA seront au moins aussi grands que ceux de l’arrivée des ordinateurs individuels dans les années 1990, mais moins dramatiques que ceux de la Révolution Industrielle. Il pense que la transition sera mouvementée mais que les impacts sur la vie des gens devraient pouvoir être mitigés…

Références et lectures approfondies

  • Use of LLMs for Illicit Purposes : Threats, Prevention Measures and Vulnerabilities, par Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewid D. Griffin : https://arxiv.org/abs/2308.12833

Les applications de l’Intelligence Artificielle

Avant toute chose, il faut réaliser que l’IA n’est pas un produit, ni un progrès qui va faire progresser un seul secteur. L’ IA est une capacité horizontale qui va impacter de nombreux domaines de la société. Cet impact sera parfois visible, mais le plus souvent discret.

L’IA s’intègre progressivement dans nos modes de vie sans que nous nous en rendions vraiment compte. Nous sommes habitués aux recommendations personnalisées des sites de commerce électronique, aux itinéraires calculés par GPS et aux engins de recherche intelligents. Actuellement, nous nous habituons aux modèles conversationnels et demain nous verra familiers avec les images et les films générés de manière automatique, voire peut-être aux voitures autonomes partagées.

La généralisation des ordinateurs ainsi que leur interconnexion via internet lors des dernières décennies s’est faite de manière progressive et a transformé notre mode de vie de manière à la fois discrète et inexorable. Cette infrastructure est la fondation que l’IA exploite pour se déployer à son tour aujourd’hui, avec la même discrétion et la même ubiquité. Elle accompagne et renforce nos processus cognitifs, tout en continuant à apprendre de nos actions. L’IA deviendra progressivement un assistant, un compagnon dont le modes de raisonnement nous sont étrangers malgré l’apparence de la familiarité.

Dans ce qui suit, je vais essayer d’imaginer les domaines dans lesquels l’IA offre le plus de potentiel. Bien sûr cet exercice doit être abordé avec humilité car il s’agit d’un domaine extrêmement incertain et dont la complexité dépasse de beaucoup les compétences d’une personne. Lors de la rédaction de cet article, je me suis inspiré de différentes lectures que vous trouverez dans la partie Notes et Références.

Cet article se focalise sur les applications positives de l’IA. Mais ce fort potentiel s’accompagne de risques importants que je couvrirai dans un prochain article.

1. Education

L’éducation est un domaine dans lequel la promesse de l’automatisation reste incomplètement réalisée. Il y a certes eu d’importants progrès dans la diffusion de la connaissance grâce aux réseaux informatiques, comme Wikipedia ou Khan Academy mais cette diffusion reste largement unidirectionnelle.

L’énorme avantage de l’IA est qu’elle peut adapter son contenu et ses interactions de manière dynamique en fonction de l’état d’avancement de la compréhension de l’étudiant. Dans une école traditionnelle, le professeur doit enseigner simultanément à une classe et cherche donc un niveau de complexité qui va bénéficier au maximum à l’ensemble des élèves, ce qui signifie viser l’élève médian tout en délaissant l’élève excellent et l’élève médiocre. Le temps qu’il peut consacrer aux élèves de manière individuelle reste limité et souvent insuffisant pour compenser ce problème de niveau.

Ce problème est connu depuis longtemps et reflète une limitation inhérente au modèle académique actuel, limité par ses ressources et ne pouvant bénéficier des mêmes effets d’échelle que les modèles automatisés. Une étude de Benjamin Bloom en 1984 appelée « Two Sigmas » montre qu’un enseignement personnalisé – soit fourni par un tuteur individuel- permet d’améliorer dramatiquement les performances des élèves (de deux écarts-types en termes statistiques).

C’est précisément cet énorme potentiel que l’IA promet d’adresser. En offrant des exercices et des mécanismes d’évaluation interactifs, l’IA va identifier les lacunes de l’étudiant et proposer des explications et mécanismes de remédiation, et ce de manière strictement individualisée et avec une patience infinie si nécessaire. Pour les plus jeunes, des exercices peuvent être présentés sous forme ludique.

L’apparition des modèles conversationnels enrichit le champ des possibles; une interface conversationnelle offre un nouveau niveau d’informalité susceptible d’attirer plus les étudiants rebutés par le contenu trop monolithique. Imaginez prendre un modèle génératif générique (à la GPT4) et continuer à l’entraîner sur tous les manuels de cours (ou syllabi universitaires) d’un domaine donné, puis l’affiner à travers des dialogues avec des professeurs spécialistes du domaine, jusqu’à ce que la qualité et la fiabilité soient suffisante. Vous disposez alors d’un mentor conversationnel qui peut répondre informellement à vos questions sur le sujet, 24h sur 24 et sans jamais perdre patience… et c’est d’autant plus simple à faire que les cours (au moins dans l’enseignement primaire et moyen) sont standardisés, donc tout est disponible…je suis convaincu que de tels modèles seront répandus d’ici quelques années. La technologie est disponible dès aujourd’hui.

Cela ne signifie pas que l’IA va se substituer aux enseignants, mais que ces derniers pourront être puissamment assistés par l’IA qui sera intégrée au processus éducatif, par exemple en modifiant le travail en autonomie (devoirs / leçons) pour le remplacer par une tutorat personnalisé quotidien. Les périodes de vacances pourraient devenir un moyen pour les moins avancés de rattraper leur retard beaucoup plus efficacement qu’aujourd’hui.

Et si vous voyez le potentiel dans nos pays sur base de votre propre expérience éducative et celle de vos enfants, imaginez l’impact de ces technologies sur l’éducation et la connaissance dans les pays du tiers-monde, où les écoles sont parfois éloignées, difficiles d’accès, les classes surpeuplées et à l’infrastructure chancelante, les enseignants peu motivés, absents et/ou mal formés…

J’ai voulu commencer par l’éducation car ce domaine est à la base de tous les autres. Augmenter le capital humain par l’éducation, c’est enrichir la société de demain; si ce mouvement est global et permet de mieux capter et affiner l’énorme réservoir de talents de la jeunesse des pays où l’éducation est moins développée aujourd’hui, l’enrichissement sera encore plus grand, et les progrès futurs encore plus rapides.

2. Santé

Le potentiel de l’intelligence artificielle dans les soins de la santé est très important, et va se manifester à trois niveaux :

Premièrement, au niveau du diagnostic et du traitement. Il s’agit d’un domaine de recherche actif depuis des décennies. L’idée est de voir des algorithmes IA jouer le rôle d’assistant ou de conseiller au praticien sur base des données collectées sur le patient (imagerie, prises de sang, antécédents… ). L’IA suggère un diagnostic au médecin, et de même pour le traitement. Aujourd’hui, ces applications existent mais elle restent confinées aux laboratoires de recherche et aux sociétés technologiques, la difficulté principale étant l’intégration et l’opérationnalisation dans les processus cliniques qui doivent aussi tenir compte de l’éthique médicale. Ces problèmes ne sont pas insurmontables et la mutiplication des sources d’information sur le patient provenant à la fois des dossiers médicaux informatisés (EHR) et bientôt de la génomique individuelle va considérablement renforcer l’attrait et l’efficacité de cette assistance automatisée.

De plus, le potentiel de l’IA dans la recherche pharmaceutique et le développement de nouveaux mécidaments est très important. Disposer de meilleurs médicaments comme de nouveaux antibiotiques va bien entendu renforcer l’impact des progrès dans le diagnostic et le traitement.

Deuxièmement, au niveau de la prévention et du suivi des patients. Au plus les patients participent activement à la gestion de leur santé, tant au niveau préventif que du suivi de leur traitement, au mieux ils se portent. Il s’agit d’une préoccupation majeure car de nombreux patients sont peu attentifs à leur santé au quotidien. Perdre du poids, prendre rendez-vous pour un examen complémentaire, ou respecter un plan de traitement médicamenteux demandent une certaine discipline personnelle et les moments d’interaction directe avec un professionel de la santé sont par nature limités. C’est ici qu’un assistant médical personnel piloté par l’IA prend tout son sens. Exploitant les informations transmises par des capteurs individuels (smartphone, montre connectée…), l’assistant médical IA va pouvoir rappeler au patient ses traitements, l’alerter de la survenance de nouveaux symptômes et lui suggérer la marche a suivre tout en contextualisant et personnalisant les réponses à ses questions. L’idée est ici d’encourager le patient à prendre sa santé au sérieux à travers des petits rappels et suggestions exprimées de manière conviviale tout en tenant également le personnel soignant informé de l’évolution du patient.

Troisièmement, au niveau de l’ administration hospitalière. Un hôpital moderne est une véritable ville dans laquelle des patients sont échangés sans cesse entre les services et leurs chambres, les produits médicaux et les médicaments consommés de tous côtés au fil des traitements et des opérations, les médecins consultant ou opérant les patients à la chaîne. Les hôpitaux disposent déjà de nombreux mécanismes de planification et de gestion automatisés mais ceux-ci agissent encore souvent de manière isolée. L’ IA permettra une gestion consolidée de ces différents processus, augmentant le champ d’optimisation et donc l’efficacité de l’ensemble. Et si l’IA permet d’alléger la charge de travail administrative du praticien, cela lui donne plus de temps pour se consacrer à son activité curative…

Comme pour l’éducation, c’est dans les pays les plus pauvres que l’impact de l’IA dans la santé sera le plus important. Aujourd’hui, beaucoup de gens du tiers-monde ne voient pratiquement jamais de médecin et les soignants de première ligne verront leur efficacité multipliée par l’assistance de l’IA éventuellement combinée à des machines connectées abordables, comme des appareils d’échographie. Il faudra que ces assistants automatisés tiennent compte des contraintes locales, tant au niveau des spécificités épidémiologiques (maladies tropicales) que des contraintes humaines, comme les personnes n’ayant pas accès aux cliniques ou ne pouvant se permettre d’interrompre leur travail.

Après l’éducation, la santé est le second domaine fondamental. Après que l’éducation ait créé le capital humain, il faut le maintenir en bonne condition -en bonne santé- pour lui permettre de produire, de créer et de contribuer le plus longtemps possible à la société. Toute avancée dans ces deux domaines rejaillit sur la prospérité collective.

3. Productivité

A court terme, nous pouvons nous attendre à ce que des IA génératives type GPT soient intégrées dans les outils de productivité actuels comme Microsoft Office ou Google Suite. La programmation informatique joue ici le rôle de pionnier. Les modèles génératifs ont des affinités manifestes avec le code informatique, et des assistants IA existent depuis quelques mois dans des environnements de programmation, comme Github Copilot ou Cursor (un dérivé de VSCode). Le retour d’expérience des programmeurs est indéniablement positif, et l’efficacité des programmeurs va progresser, d’autant plus que les modèles vont continuer à progresser eux aussi.

A moyen terme, nous pourrons disposer d’une IA personnalisée plus généraliste qui suivra l’ensemble de nos interactions digitales et pourra s’habituer à notre personnalité et nos usages. Elle pourra gérer nos agendas, proposer des réponses aux emails que nous recevrons, passer des commandes sur des sites de commerce électronique et fonctionnera à travers l’ensemble de nos outils informatiques. Il est possible que nos ordinateurs privés contiennent un assistant pour notre vie privée, tandis qu’un autre assistant -éventuellement mis à disposition par l’employeur- nous aidera dans le cadre professionnel.

En parallèle, certaines tâches intellectuelles répétitives comme l’encodage de documents, le support à la clientèle de première ligne ou le télémarketing verront une plus grande automatisation. Le rôle humain ne disparaîtra pas mais il se reportera sur les activités à plus forte valeur ajoutée et/ou accordant une plus grande prime à l’interaction personnelle (support de seconde ou troisième ligne, finalisation de l’acquisition d’un nouveau client…).

Ceci suscite des interrogations légitimes quant à l’impact sur l’emploi. La spécificité de l’IA est qu’elle s’adresse aux tâches cognitives et non aux tâches manuelles comme lors des précédentes vagues d’automatisation. Cette fois, ce sont donc les cols blancs qui sont concernés et non les cols bleus.

Néanmoins, il faut garder deux choses en mémoire : premièrement, un gain de productivité reste fondamentalement une bonne nouvelle car il va permettre de dégager du temps consacré à des activités répétitives pour le réorienter soit vers des tâches plus valorisantes soit vers des loisirs.

Et deuxièmement, les gains de productivité dans les économies avancées sont en berne depuis les années 1980. La révolution de l’informatique et des télécommunications qui a démarré à la même époque n’a pas entraîné les gains de productivité que l’on aurait pu en attendre. On peut donc espérer que l’IA concrétise enfin les promesses de la digitalisation et relance l’expansion de la productivité.

4. Aspects Sectoriels

ans ce qui précède, je me suis volontairement concentré sur les applications qui impacteront tout le monde. Mais les différents secteurs d’activité économique seront également transformés à des degrés divers par l’IA. Afin de circonscrire le propos, je vais ici me limiter à quelques exemples.

Le domaine des transports est déjà en pleine transformation. GPS, navigation, assistance à la conduite sont une préfiguration des applications de demain. Le transport est au fond un immense exercice d’optimisation d’un problème de déplacement de personnes et de marchandises en utilisant des ressources (véhicules) et une infrastructure donnée (routes, chemins de fer…). Au plus il est traité de manière consolidée, au plus grandes les optimisations possibles : gestion intelligente du trafic, véhicule autonomes partagés, multimodalité intégrée…

L’énergie est un autre secteur susceptible d’être transformé en profondeur; le réseau électrique est un système complexe dans lequel la production doit équilibrer la consommation à chaque instant. Consommation qui est répartie à travers des millions de foyers et d’entreprises autonomes. Ceci est aujourd’hui réalisé par des mécanismes d’équilibrage et de stabilisation mais qui ne disposent que d’informations partielles et ne sont pas optimaux. L’émergence des smart grids dans lesquelles les acteurs individuels échangent de l’information avec les sytèmes de contrôle va permettre un pilotage beaucoup plus fin des réseaux et permettre une meilleure résilience en cas de problème sérieux d’approvisionnement. Sans oublier que le caractère intermittent des énergies renouvelables rend les algorithmes de prédiction de production encore plus essentiels.

Dans l’agriculture, chaque exploitation peut être considérée comme un système autonome complexe qui consomme des ressources (semences, eau, pesticides) pour exploiter une infrastructure (les champs et pâturages) afin de générer un produit (céréales, viande…) en tenant compte des conditions climatiques. L’IA va jouer un rôle d’optimisation du système et va bénéficier des synergies avec une autre technologie émergente : les drones, qui vont rendre possible l’observation de l’infrastructure en temps réel et pallier au plus vite à un problème éventuel de stress hydrique ou végétal.

Conclusion

Si les vagues d’automatisation précédentes étaient concentrées sur la génération et la distribution d’information, la phase qui s’annonce mettra l’accent sur l’exécution et la réalisation. Nous allons enfin exploiter pleinement le cycle d’innovations digitales qui a commencé avec l’informatique et internet. L’internet des objets et l’ubiquité des capteurs connectés se joignent à l’orchestre en fournissant à l’IA les données omniprésentes dont cette dernière a besoin.

Les potentialités sont grandes et il est difficile de prévoir où elles s’arrêteront. Si l’on arrive à intégrer pleinement la robotique avec l’IA, le champ d’action s’étend vers de nouveaux secteurs comme la construction. De la même manière, l’intégration complète des drones avec l’IA est un autre multiplicateur potentiel.

Mais il faut garder en mémoire que ces technologies peuvent à la fois être utilisées de manière constructive et de manière destructive. Un robot ou un drone intelligent peuvent être d’excellents ouvriers mais aussi de redoutables soldats. Les modèles génératifs peuvent être utilisés pour l’éducation mais aussi pour la désinformation. Les profonds changements de société que l’IA laisse entrevoir risquent de causer des déséquilibres : croissance des inégalités, modification du rapport à l’emploi…

Je couvrirai plus en détails les risques liés à l’IA dans le prochain article.

Références

Panorama de l’Intelligence Artificielle (II) – l’apprentissage profond

Situation

Beaucoup des succès initiaux de l’IA, rendus possibles par l’IA symbolique, se sont déroulés dans des environnements idéalisés ne nécessitant pas une grande expérience du monde ni de capacité d’apprentissage. Et pourtant, les raisonnements de notre vie quotidienne font appel à une quantité prodigieuse d’informations sur le monde. Cette connaissance est en grande partie intuitive et subjective, donc difficile à formaliser.

Ces difficultés suggèrent une approche alternative : tenter d’extraire la structure d’un problème à partir d’exemples, et laisser la machine apprendre son propre modèle. C’est l’idée de l’apprentissage machine, décrite dans l’article précédent.

Mais en réalité, les approches d’apprentissage machine « simples » ne font que déplacer le problème, parce qu’elles sont uniquement capables de recevoir un nombre limité de données en entrée, qui doivent être soigneusement choisies par le programmeur pour permettre le bon apprentissage de l’algorithme. Cette dépendantce à la représentation des données fournies est un sérieux point faible car il est souvent difficile à satisfaire, notamment pour les problèmes perceptuels, parmi les plus intéressants en pratique: si vous voulez construire un détecteur de chat dans une image en fonction des pixels de l’image, il va être très difficile de définir à la main une représentation intermédiaire qui facilitera l’apprentissage du programme en aval: il y a beaucoup trop de combinaisons de facteurs à prendre en compte : orientation, distance du chat, éclairage, environnement…

L’ apprentissage profond résout ce problème par la force : on va « empiler » de multiples couches algorithmiques qui vont elles-mêmes apprendre ensemble à générer ces représentations intermédiaires. On peut donc fournir directement les données perceptuelles en entrée et il n’y a plus besoin de contruire de représentation intermédiaire puisqu’elle est générée automatiquement dans les premières couches du réseau. Le champ d’application perceptuel s’ouvre, au prix de modèles comprenant un nombre énorme de paramètres et entraînés sur un très grand volume de données d’apprentissage.

Les réseaux neuronaux artificiels

Le but de l’Intelligence Artificielle étant d’émuler l’intelligence humaine, pourquoi ne pas s’inspirer de la structure du cerveau humain pour construire une machine intelligente ? C’est l’idée des réseaux neuronaux artificiels, qui sont au coeur de l’apprentissage profond.

Les neurones naturels constituent l’unité de base du cerveau humain. Notre cerveau en contient environ 100 milliards. Si chaque neurone se comporte de manière relativement prévisible, ils sont fortement connectés entre eux et la mise en réseau de ces neurones relativement simples permet au cerveau de réaliser des calculs extrêmement complexes avec une grande efficacité. Les détails du fonctionnement du cerveau (et d’ailleurs des neurones) font sont l’objet de recherches intenses et ne sont pas entièrement compris, mais on sait que les neurones ont tendance à s’organiser en couches consécutives dans le cortex cérébral.

En deux mots, un neurone naturel reçoit une série de signaux électriques provenant d’autres neurones via ses dendrites. Sur base de ces entrées, le neurone va émettre un signal de sortie sur son axone, une sorte de long câble électrique qui va à son tour se connecter aux dendrites d’autres neurones. C’est ainsi que le réseau se constitue.

Les neurones artificiels sont une représentation idéalisée du fonctionnement d’un neurone naturel; en substance, ils ne sont rien d’autre qu’une fonction mathématique qui prend en variables d’entrée la sortie d’autres neurones artificiels, leur applique une fonction mathématique pour obtenir une seule valeur de sortie qui est à son tour transmise à l’entrée d’autres neurones artificiels. Bref, un neurone artificiel n’est rien de plus qu’une fonction à plusieurs variables.

Ces neurones artificiels sont alors « connectés » les uns aux autres et empilés en couches successives pour construire un réseau de neurones artificiels, comme illustré sur la figure 2, qui montre un réseau à deux couches. Les paramètres d’apprentissage du réseau sont les poids wi et b de chaque neurone. Ceux-ci seront progressivement modifiés lors de l’apprentissage jusqu’à ce que la performance du modèle soit considérée comme satisfaisante.

Il manque une dernière pièce au puzzle : il nous faut encore un algorithme d’apprentissage qui va faire évoluer les paramètres du réseau (les wi et b) pendant la phase d’entraînement. Cet algorithme, appelé « rétropropagation » est la sauce secrète qui permet aux réseaux de neurones artificiels de se transformer de joyeux enchevêtrement inutile de fonctions vers une machine puissante d’interprétation perceptuelle.

L’ expérience permet de définir l’architecture appropriée du réseau neuronal en fonction du problème à traiter, tant en termes de couches et de connectivité (tous les neurones ne sont en général pas connectés entre eux), que du volume d’exemples pertinents à fournir lors de la phase d’entraînement.

Ces réseaux peuvent inclure un nombre arbitraire de couches neuronales qui vont rendre possible la génération de représentations de plus en plus abstraites du domaine d’entrée, et donc traiter des problèmes de plus en plus complexes.

C’est cette capacité de l’apprentissage profond à traiter des problèmes d’une grande complexité qui a entraîné sa dominance de plus en plus forte sur les autres approches au cours de la dernière décennie. Les deux domaines où l’apprentissage profond règne aujourd’hui sans partage sont le traitement de la vision et du langage. Deux domaines aux applications extrêmement utiles et répandues…

Applications

L’ apprentissage profond regroupe deux grandes familles d’applications : les applications discriminatives et les applications génératives.

Les applications discriminatives sont celles qui ont pour but la classification ou la prédiction. Ce sont des modèles qui cherchent à apprendre la relation existant entre les données d’entrée et de sortie. Il s’agit de l’approche « traditionnelle » décrite plus haut et qui s’inscrit dans la continuité des principes de l’apprentissage machine.

Les exemples d’applications discriminatives sont nombreux et nous en côtoyons certains quotidiennement :

  • moteurs de recommendation sur un site de commerce électronique,
  • détection de spam dans les emails,
  • détection de transaction frauduleuse sur les cartes bancaires,
  • reconnaissance d’objets dans une image (et par extension conduite autonome),
  • classification de textes par catégories,
  • prédiction de la consommation électrique,
  • analyse de sentiment d’un commentaire (par ex. positif/négatif)

Les applications génératives sont plus récentes. Elles vont générer de nouvelles données similaires à celles fournies en entrée. Ces modèles cherchent à apprendre la structure sous-jacente dans des jeux de données et à générer des données complémentaires de manière autonome.

Les applications génératives se découpent à leur tour en deux grandes sous-familles : celles qui travaillent sur du texte et celles qui travaillent sur des images, même si certaines applications combinent les deux.

Les modèles de langage comme GPT, ChatGPT, PALM etc.. appartiennent à la sous-famille des applications génératives textuelles: nous avons l’impression qu’elles agissent interactivement, mais en réalité ils cherchent à prédire le texte le plus probable (tenant compte de leur modèle) pour prolonger la séquence de texte entamée par notre question. Et leur modèle ayant été entraîné pour inclure des séquences de dialogues, le modèle fournira naturellement une réponse -en principe plausible- quand une question lui est posée parce que cela lui semble une prolongation satifaisante au texte de la question.

Les modèles génératifs d’image comme Stable Diffusion agissent de manière analogue sur des images. Ils peuvent générer de nouvelles images à partir d’images existantes, compléter une image incomplète ou bien générer des images à partir de descriptions textuelles fournies par l’utilisateur (text-to-image). Inversément, ces modèles peuvent donner une description textuelle d’une image (image-to-text).

La puissance de ces modèles permet de les étendre efficacement à de nouveaux champs d’applications. Les derniers progrès en la matière sont le text-to-code (génération automatique de programmes informatiques), le text-to-task (le système exécute une tâche sur base d’une demande textuelle, par ex. déplacer un fichier), le text-to-3D (génération d’un modèle 3D à partir d’une description textuelle) et même le text-to-video !

Il est difficile de prédire où cela s’arrêtera car les progrès sont extrêmement rapides. Tellement rapides qu’ils suscitent l’inquiétude : ces systèmes peuvent impacter l’emploi ou être exploités à des fins malveillantes. Plus de mille chercheurs ont publié en mars 2023 une lettre demandant un moratoire d’au moins six mois sur les recherches allant au-delà de GPT4, le temps de faire le point sur les risques. Actuellement, les recherches continuent…

Je terminerai par le clip qui suit, intitulé « Amsterdam Trip », entièrement généré par Stable Diffision. Hallucinant.

Panorama de l’Intelligence Artificielle

Vue d’ensemble

Nous l’avons déjà vu précédemment dans l’historique : le domaine de l’Intelligence Artificielle est né dans les années 1950 sous l’impulsion d’une poignée de pionniers. L’ Intelligence Artificielle peut être définie de manière succincte comme l’ensemble des efforts visant à automatiser les tâches intellectuelles normalement exécutées par les êtres humains.

L’ IA procède principalement de deux domaines distincts, appelés IA symbolique et IA connexionniste. Ces deux approches suivent des voies profondément différentes pour aboutir à la construction de systèmes automatisés intelligents. En pratique, l’IA connexionniste correspond aux techniques d’apprentissage machine, et c’est le terme que j’utiliserai dans le reste de cet article. Dans les techniques d’apprentissage machine, les techniques basées sur des réseaux neuronaux artificiels ont progressivement acuis une position dominante. Elles sont à la base de toutes les percées récentes, y compris les modèles de langage qui défraient actuellement la chronique. Pour des raisons qui apparaîtront ci-dessous, ces techniques sont souvent appelées apprentissage profond. La figure 1 illustre la situation respective de ces différentes approches.

Enfin, il existe quelques approches particulières qui ne peuvent être vraiment classées dans aucune des deux grandes catégories. On peut citer par exemple les filtres de Kalman, les réseaux bayesiens ou encore les modèles de Markov (cachés ou pas). Je n’en parlerai pas plus ici.

Figure 1 : Aperçu général du domaine de l’Intelligence Artificielle

Les techniques de l’IA symbolique

Les partisans de l’approche symbolique basent leurs systèmes sur une formalisation de la connaissance et du raisonnement humains en les traduisant en un ensemble de symboles et de relations entre ces symboles. L’idée est séduisante, les symboles jouant un rôle vital dans la connaissance et le raisonnement humain; il suffit de réfléchir un instant à la structure de nos langues, avec leur vocabulaire et leurs règles syntaxiques pour s’en convaincre : nous utilisons des symboles abstraits pour représenter des catégories de concepts, qui se déclinent en des concepts plus simples jusqu’à descendre à des notions élémentaires. De la même manière,nos langages nous permettent d’exprimer toutes sortes de relations, qui couvrent tout le champ de l’expérience consciente humaine : relations humaines, catégorisation des objets, position et relation dans le temps et l’espace, liens de causalité, raisonnements abstraits….

L’idée de l’IA symbolique est de construire un monde abstrait idéalisé, contenant un nombre de concepts/symboles beaucoup plus réduit que dans le monde réel, et régi par des relations entre symboles et règles logiques d’action élémentaires. Ces symboles et ces règles sont ensuite intégrés dans un programme informatique qui va les manipuler et déduire de nouvelles relations par application répétée de ces règles logiques.

L’ algorithme de base de l’IA symbolique est celui de la recherche de haut en bas : l’algorithme va essayer différentes solutions, partant de la situation de départ et appliquant successivement toutes les combinaisons possibles de règles dans le but d’atteindre l’objectif recherché, ou, à défaut de s’en approcher. Au fur et à mesure de l’application récursive des règles, un « arbre » de règles se contruit. L’ordinateur parcourt inlassablement les différentes branches, à la recherche de la meilleure solution.

Je vais illustrer ceci à travers quelques exemples classiques de problèmes traités par l’IA symbolique :

  • Navigation : c’est l’algorithme que vous activez lorsque vous voulez vous rendre d’un endroit à l’autre et demandez le chemin à votre véhicule. Le système possède un graphe de toutes les routes carrossables de la région. Partant du noeud où vous vous trouvez, il va parcourir le graphe des chemins de proche en proche. Après chaque trajet élémentaire, l’algorithme regarde le point d’aboutissement et vérifie s’il a déjà atteint le même point par un autre chemin. Il ne conserve alors que le chemin le plus optimal pour atteindre ce point (en termes de distance et/ou de temps) et élimine les autres. L’algorithme procède de la sorte répétitivement jusqu’ à atteindre la destination, puis continue pour évaluer toutes les manières d’atteindre la destination et ne garder que la plus optimale, qui est la solution recherchée.
  • Jeu d’échecs : l’ordinateur connaît la configuration initiale des pièces sur l’échiquier ainsi que tous les mouvements possibles des pièces. Supposons pour fixer les idées que l’ordinateur joue avec les blancs. Une fonction d’évaluation est définie, qui retourne un score pour chaque configuration possible de l’échiquier. Au plus la configuration est favorable à l’ordinateur (=les blancs), au plus le score est élevé. Ce score inclut en général une composante matérielle (préservation des pièces) et aussi positionnelle (localisation des pièces). L’algorithme, appelé MINIMAX, va alors créer un arbre de tous les mouvement possibles pour chacun des joueurs jusqu’à un certain nombre de coups dans le futur. Il va alors progressivement remonter en ne conservant chaque fois que le mouvement le plus optimal considérant que les joueurs sont rationnels, à savoir choisissent systématiquement le mouvement qui maximise le score final – quand c’est à blanc de jouer- ou celui qui minimise le score final -quand c’est à noir de jouer-. Progressivement, l’algorithme remonte jusqu’au coup de départ et sélectionne le mouvement qui maximise le score pour le coup à jouer.
  • Planification : le système reçoit une tâche à accomplir, mais cette tâche requiert la réalisation de différentes sous-tâches qui sont liées par différentes relations et contraintes (de hiérarchie, de séquence, de localisation physique, de consommation de resources…). L’algorithme va alors parcourir toutes les manières possibles d’ordonnancer les tâches en respectant les contraintes jusqu’à ce que l’objectif soit atteint. Ces algorithmes ont la particularité qu’ils vont souvent parcourir l’espace de configuration à la fois progressivement depuis le point de départ, mais aussi à rebours depuis l’objectif, et ce jusqu’à trouver un point de rencontre dans l’espace des configurations entre la recherche progressive et la recherche « à rebours ». De nombreux problèmes logistiques peuvent se traiter de la sorte, par exemple placement et déplacement de caisses dans un entrepôt, transport de frêt optimal considérant les contraintes de transport….
  • Systèmes experts : la connaissance d’un expert est encodée sous forme de règles logiques et appliquée à un ensemble de données en entrée. Ces règles peuvent servir à établir des conclusions intermédiaires qui vont ensuite être exploitées pour tenter de tirer une conclusion définitive. De plus, le système permet à l’utiliateur de lui fournir des informations complémentaires lorsqu’il est bloqué, afin de faire progresser l’analyse. Par exemple, un programme pourra analyser un prélèvement sanguin et tirer des conclusions intermédiaires, qu’il soumet à un médecin; par exemple suggérer un examen médical complémentaire. Le médecin peut ensuite encoder le résultat du test complémentaire ce qui permettra au système expert de tirer de nouvelles conclusions, qu’il soumettra à nouveau, et ainsi de suite jusqu’à ce que l’utilisateur soit satisfait.
  • Prouveurs de théorèmes : l’ordinateur connaît les axiomes des mathématiques ainsi qu’un certain nombre de théorèmes déjà prouvés qui constituent son point de départ. Le théorème à prouver constitue l’objectif. L’ ordinateur connaît aussi les règles de déduction de la logique formelle. Il va alors appliquer répétitivement et cumulativement toutes les combinaisons de règles formelles sur l’ ensemble de faits constituant le point de départ, jusqu’à atteindre le théorème à prouver. Cet approche est très séduisante car l’algorithme peut immédiatement restituer la chaîne logique suivie et donc expliquer son raisonnement. CQFD.

Une caractéristique de toutes ces techniques est que le monde abstrait est défini à la main de toutes pièces par le programmeur. Il n’y a pas à proprement parler d’apprentissage autonome par la machine, qui ne fait qu’appliquer les règles qui lui ont été édictées.

L’illusion de l’intelligence provient ici de l’extrême rapidité des ordinateurs. Là ou l’être humain va instinctivement élaguer l’arbre des possibles et focaliser son analyse sur un petit nombre de cas prometteurs, l’ ordinateur va parcourir très rapidement tous les cas possibles, même les moins plausibles, pour arriver à un résultat analogue.

Les techniques de l’apprentissage machine

Commençons tout de suite par une définition due à Arthur Samuel en 1959 : l’apprentissage machine est le domaine d’étude qui vise à donner aux ordinateurs la capacité d’apprendre sans avoir été explicitement programmés.

L’ idée de base de l’apprentissage machine est que l’utilisateur fournit à l’algorithme une série de données qui vont permettre à l’algorithme de créer son propre modèle à travers une phase d’apprentissage. Une fois l’apprentissage terminé et le modèle testé, il pourra être utilisé sur de nouvelles données pour effectuer des prédictions. Contrairement à la démarche déductive de l’IA symbolique, la démarche de l’apprentissage machine est donc par nature inductive : elle part de cas particuliers pour construire une généralisation à travers une phase préparatoire d’entraînement. L’algorithme construit progressivement une structure statistique au moyen des exemples d’entraînement; cette structure est gelée à la fin de l’entraînement et exploitée ensuite sur de nouveau exemples en production pour effectuer des prédictions.

L’apprentissage machine est utilisé dans de nombreuses applications car il permet aux machines d’interpréter leur environnement (au sens large du terme) même lorsque celui-ci est incertain, entaché d’erreurs ou tout simplement impossible à formaliser explicitement. Ce dernier cas est typique des problèmes perceptuels. En effet, comment définir une règle déductive permettant d’établir si une image contient un chat ou pas, uniquement à partir des points qui la constituent ? Cela semble impossible…

L’apprentissage machine a commencé à prendre l’avantage sur l’IA symbolique dans les années 1990 et est aujourd’hui et de loin l’approche dominante, profitant de la digitalisation accrue du monde depuis l’arrivée du World Wide Web pour nourrir des jeux de données numériques sans cesse plus volumineux. Si l’approche dominante aujourd’hui est l’apprentissage profond, basé sur les réseaux neuronaux, il est bon de parler un instant des autres approches qui peuvent s’avérer plus adéquates que les réseaux neuronaux dans certainc cas.

Les algorithmes d’apprentissage machine se découpent en plusieurs sous-familles, en fonction du type de données disponibles pendant la phase d’apprentissage.

Dans le cas de l’apprentissage supervisé, le programmeur fournit à l’algorithme un jeu de données d’apprentissage « étiqueté » c’est à dire comprenant à la fois les données d’entrée (appelées observations) et les données de sortie (appelées étiquettes). Dans ce cas, l’algorithme cherchera à apprendre comment prédire la bonne étiquette en fonction de l’observation fournie. Une contrainte de ces algorithmes est que les étiquettes doivent en général être définies à la main avant l’apprentissage, et qu’elles doivent être correctes. Ceci a un coût.

La régression et la classification sont deux techniques traditionnelles en apprentissage machine supervisé. La régression consiste à chercher à prédire une valeur numérique continue en fonction d’une observation, alors que la classification a pour but d’attribuer à chaque observation une catégorie donnée parmi un nombre fini de catégories. Dans le cas le plus simple, la classification binaire va prédire si une observation possède ou non une caractéristique intéressante (classification oui/non).

Dans le case de l’apprentissage non supervisé, le jeu de données d’entraînement ne contient que des données d’entrée mais aucune donnée de sortie. Le programme devra donc, pendant la phase d’apprentissage, découvrir la structure sous-jacente des données, pour autant qu’elle existe. L’apprentissage non supervisé est souvent moins performant que l’apprentissage supervisé car il ne possède pas les étiquettes pour orienter sa modélisation. Par contre, il est possible d’utiliser directement des données brutes (textes, images…), souvent disponibles en très grande quantité, sans devoir les étiqueter une à une au préalable.

Un algorithme classique d’apprentissage non supervisé est le partitionnement des données (clustering en Anglais) dans lequel les données en entrée sont regroupées arbitrairement par l’algorithme en un certain nombre de catégories plausibles au vu de la répartition des observations. Un intérêt de ce type d’algorithme est qu’il possède une certaine forme de créativité, et peut donc aider un chercheur à identifier des régularités ou des motifs jusu’alors indétectés.

Un autre exemple d’apprentissage non supervisé est la détection d’anomalie. Il consiste à détecter une observation aberrante par rapport aux données d’entraînement et qui survient rarement. La détection d’une transaction financière frauduleuse ou d’une pièce mécanique défectueuse lors d’un contrôle qualité en bout de chaîne de production sont deux exemples d’application de cet algorithme.

Enfin, il existe des situations intermédiaires. Dans l’apprentissage semi-supervisé, seule une partie des observations d’entrée est étiquetée. Dans l’apprentissage autosupervisé, on cherche à prédire certaines données d’entrée en fonction des autres. C’est une approche très intéressante sur lequel on reviendra par la suite car elle est largement utilisée dans les modèles de langage.

L’apprentissage profond

L’apprentissage profond reprend les mêmes techniques et approches que l’apprentissage machine. On y retrouve également l’apprentissage supervisé, non supervisé, semi-supervisé etc… La différence entre les deux provient du type de modèle utilisé.

Si l’ apprentissage machine se base sur des algorithmes statistiques traditionnels, l’apprentissage profond recourt aux réseaux de neurones artificiels multicouches pour arriver au même résultat. La différence est que la puissance de modélisation des neurones artificiels n’est limitée que par la taille du réseau et celui-ci peut être rendu arbitrairement complexe, pour autant que le programmeur dispose de la puissance de calcul nécessaire et d’un volume de données suffisant.

Cette capacité à traiter des problèmes de plus en plus complexes a propulsé l’apprentissage profond au début de la scène depuis le début de la décennie 2010; cette approche domine aujourd’hui complètement le secteur.

Vu la longueur que ce texte est en train de prendre, je traiterai de l’apprentissage profond dans un article séparé, car le sujet mérite largement un traitement détaillé.

Conclusion

Le défi ultime de l’IA est de créer un système capable à la fois de raisonner, de créer de nouvelles abstractions, de percevoir le monde dans toute sa complexité, et d’apprendre de manière autonome. Mais les systèmes actuels se montrent soit déficients dans leur capacité à raisonner, soit à apprendre.

En même temps, on ne peut s’empêcher d’être interpellé par la grande complémentarité des deux approches. Les méthodes d’apprentissage machine excellent dans leurs capacités d’ apprentissage et de modélisation de phénomènes complexes mais leurs capacités d’abstraction, de raisonnement et d’explication sont limitées et peu interprétables. L’IA symbolique offre à peu près l’inverse : une grande puissance d’abstraction et de raisonnement, facilement intérprétables, mais peu encline à traiter les grands volumes de données imparfaitement structurés ou à apprendre de manière autonome.

On ne peut s’empêcher de penser que l’approche idéale combinerait ces deux techniques. Ces approches, appelées hybrides ou neurosymboliques, font l’objet de recherches et de développements approcondis. Mais l’intégration entre deux approches fondamentalement différentes n’est pas simple. L’avenir nous dira ce qu’il en est…

Pour terminer, admirons un instant l’extraordinaire puissance de la conscience humaine, qui combine toutes ces capacités avec élégance et harmonie. En quelques années, et par l’entremise de ses cinq sens limités, un enfant se crée une représentation intérieure du monde d’une stupéfiante complexité, qu’il continuera à enrichir toute sa vie au fil de nouveaux apprentissages et de nouvelles expériences. Chaque conscience est un univers propre qui reflète l’univers extérieur.

Toutes les fois qu’un homme meurt, c’est un monde qui disparaît, le monde qu’il portait dans sa tête. – Arthur Schopenhauer