Liste des personnalités de l’IA à suivre sur Twitter/X

Cet article liste les principales personnalités à suivre sur Twitter/X si vous voulez être au courant des dernières tendances dans le secteur de l’Intelligence Artificielle. Certaines de ses personnalités n’hésitent pas à débattre entre elles sur Twitter et les arguments déployés de part et d’autre sont souvent passionnants.

J’ai structuré cette liste en deux parties. : les experts techniques et les personnes qui se concentrent sur l’impact sociétal, les risques et les applications de l’IA.

Et au passage, vous pouvez toujours aussi me suivre, Arnaud Stévins (@Arnaud_ast).

1. Chercheurs et experts techniques en IA

  • Geoffrey Hinton (@geoffreyhinton) : Il est professeur à l’université de Toronto et vice-président et ingénieur chez Google. Il est également l’un des pionniers de l’apprentissage profond et des réseaux neuronaux. Il tweete sur la recherche en IA, les publications et les événements;
  • Yann LeCun (@ylecun) : Il est le directeur scientifique IA chez Meta et professeur à l’université de New York. Il est également l’un des créateurs des réseaux neuronaux convolutifs, une technique largement utilisée pour la reconnaissance d’images. Il tweete sur la recherche, l’actualité et les événements dans le domaine de l’IA;
  • Yoshua Bengio (@yoshuabengio) : Professeur à l’Université de Montréal, il est le fondateur et le directeur scientifique de Mila, l’Institut québécois d’intelligence artificielle. Il est également l’un des pionniers de l’apprentissage profond et des réseaux neuronaux, avec Geoffrey Hinton et Yann LeCun. Il tweete sur la recherche en IA, les publications et les événements;
  • Jürgen Schmidhuber (@SchmidhuberAI) : Codirecteur du Swiss AI Lab IDSIA, professeur d’intelligence artificielle à l’université de Lugano, pionnier de l’IA auto-améliorante, des réseaux neuronaux d’apprentissage profond et du méta-apprentissage, inventeur des LSTM et des machines de Turing neuronales;
  • Andrew Ng (@AndrewYNg) : Il est cofondateur de Coursera et de Google Brain, et ancien directeur scientifique de Baidu. Il est également professeur adjoint à l’université de Stanford et pionnier de l’apprentissage profond, de la vision par ordinateur et du traitement du langage naturel. Il parle sur Twitter de l’enseignement, de la recherche et des applications de l’IA;
  • Demis Hassabis (@demishassabis) : Il est cofondateur et PDG de DeepMind, une société de recherche en IA de premier plan qui fait partie de Google. Il est également un ancien prodige des échecs et un neuroscientifique. Il évoque sur Twitter les réalisations de DeepMind, telles qu’AlphaGo, AlphaZero et AlphaFold;
  • Ilya Sutskever (@ilyasut) : Scientifique en chef et cofondateur d’OpenAI, ancien chercheur chez Google Brain, ancien étudiant de Geoffrey Hinton à l’université de Toronto, co-inventeur d’AlexNet et d’ImageNet Challenge;
  • Andrej Karpathy (@karpathy) : Il est directeur de l’IA chez Tesla et ancien chercheur chez OpenAI. Il est également professeur adjoint à l’université de Stanford et cofondateur de ConvNetJS, une bibliothèque JavaScript pour l’apprentissage profond. Il tweete sur les applications de l’IA, les défis et l’humour;
  • Gary Marcus (@GaryMarcus) : Professeur de psychologie et de sciences neuronales à l’université de New York, fondateur et PDG de Robust.AI, auteur de plusieurs ouvrages sur l’IA et les sciences cognitives, tels que Rebooting AI et The Algebraic Mind;
  • Lex Fridman (@lexfridman) : Il est chercheur au MIT et animateur du podcast Lex Fridman, où il interviewe des experts en IA, en science et en technologie. Il tweete sur des sujets liés à l’IA, tels que les voitures autonomes, l’apprentissage par renforcement et l’AGI;
  • Mustafa Suleyman (@mustafasuleymn) : Cofondateur et directeur général d’Anthropic, un laboratoire de recherche axé sur la création d’une intelligence artificielle générale (AGI) sûre et bénéfique, ancien cofondateur et responsable de l’IA appliquée chez DeepMind, ancien vice-président de la politique en matière d’intelligence artificielle chez Google;
  • François Chollet (@fchollet) : Ingénieur logiciel chez Google, il est le créateur de Keras, un cadre populaire d’apprentissage profond. Il est également l’auteur d’un livre sur l’apprentissage automatique et chercheur sur les modèles génératifs, la vision par ordinateur et le traitement du langage naturel.

2. Spécialistes des applications, impacts et risques de l’IA

  • Stuart Russell (@StuartHRussell) : Professeur d’informatique et directeur du Center for Human-Compatible AI à l’université de Californie à Berkeley, coauteur du manuel Artificial Intelligence : A Modern Approach, fondateur et président du Center for the Study of Existential Risk;
  • Erik Brynjolfsson (@erikbryn) : Directeur du Stanford Digital Economy Lab, chercheur principal au Stanford Institute for Human-Centered AI, professeur à la Stanford Graduate School of Business, co-auteur de plusieurs ouvrages sur l’impact de la technologie sur la société et l’économie, tels que The Second Machine Age et Machine;
  • Sam Altman (@sama) : PDG et coprésident d’OpenAI, ancien président de Y Combinator, cofondateur et président d’OpenAI Codex (anciennement GPT-3), cofondateur et membre du conseil d’administration de plusieurs startups telles que Stripe, ZenPayroll, Loopt et Asana;
  • Dario Amodei (@Dario_Amodei) : Cofondateur et PDG d’Anthropic, ancien vice-président de la recherche chez OpenAI, ancien chercheur chez Google Brain, ancien postdoctorant au Princeton Neuroscience Institute, chercheur sur l’apprentissage profond, le traitement du langage naturel et la sécurité de l’IA;
  • Bill Gates (@BillGates) : Coprésident et administrateur de la Fondation Bill et Melinda Gates, fondateur et ancien président-directeur général de Microsoft Corporation, philanthrope et investisseur dans divers domaines tels que la santé mondiale, l’éducation, l’énergie et le changement climatique;
  • Kai-Fu Lee (@kaifulee) : Il est le fondateur et le PDG de Sinovation Ventures, une société de capital-risque qui investit dans des startups d’IA en Chine et aux États-Unis. Il est également ancien président de Google China et ancien vice-président de Microsoft Research Asia. Il s’exprime sur Twitter au sujet des tendances, des opportunités et des défis de l’IA en Chine et au-delà;
  • Sebastian Thrun (@SebastianThrun) : Il est le fondateur et le président d’Udacity, une plateforme d’enseignement en ligne qui propose des cours sur l’IA, la ML, la robotique, etc. Il est également professeur à l’université de Stanford et ancien vice-président de Google. Il tweete sur l’éducation à l’IA, l’innovation et l’impact social;
  • Fei-Fei Li (@drfeifei) : Elle est professeur à l’université de Stanford et codirectrice du Stanford Institute for Human-Centered Artificial Intelligence (HAI). Elle est également cofondatrice et présidente d’AI4ALL, une organisation à but non lucratif qui vise à accroître la diversité et l’inclusion dans l’IA. Elle s’exprime sur Twitter au sujet de l’éthique de l’IA, de l’intérêt social et de l’éducation;
  • Rachel Thomas (@math_rachel) : Elle est cofondatrice et directrice du Center for Applied Data Ethics à l’université de San Francisco. Elle est également auteur, conférencière et enseignante sur l’éthique de l’IA, l’équité et la justice sociale. Elle tweete sur les questions liées à l’IA, telles que les préjugés, la protection de la vie privée et la responsabilité;
  • Jan Leike (@janleike) : Co-directeur de la recherche sur le superalignement à OpenAI, ancien chercheur principal à DeepMind, ancien chercheur postdoctoral à l’Australian National University, chercheur sur l’apprentissage par renforcement, l’alignement et la sécurité;
  • Eliezer Yudkowsky (@ESYudkowsky) : Cofondateur et chercheur principal au Machine Intelligence Research Institute (MIRI), auteur de Rationality : From AI to Zombies et Harry Potter and the Methods of Rationality, chercheur sur la théorie de l’intelligence artificielle, la théorie de la décision, la rationalité et l’alignement.

Utilisation des modèles conversationnels VII : Réflexions et conclusions

Après ce tour d’horizon de l’utilisation des modèles conversationnels, je voudrais partager avec vous quelques rélexions personnelles, à la fois concernant leur utilisation mais aussi les opportunités et risques qui leur sont propres.

L’utilisation de ces modèles, que ce soit pour la question initiale ou le dialogue ultérieur, s’améliore avec la pratique et le temps. Les articles précédents doivent être vus comme des illustrations de ma propre pratique après quelques mois mais il est possible d’aller plus loin en termes d’utilisation. Un peu comme l’utilisation des engins de recherche que nous avons appris à apprivoiser au fil des années.

Si vous voulez aller plus loin et approfondir vos connaissances, je vous conseille le guide du Prompt Engineering qui est accessible ici.

Il y a aussi une dimension sociale à l’apprentissage de ces outils. De nombreux sites répertorient les meilleures pratiques identifiées par les utilisateurs et il est utile de les parcourir pour se familiariser avec leurs idées, alors qu’ils suivent la même courbe d’apprentissage. Vous trouverez ici un lien vers le site PromptVine qui contient une des plus grandes collections librement accessibles de prompts pour ChatGPT.

Ces modèles ont aussi pour avantage qu’ils peuvent étendre le champ des possibles. Je suis un programmeur assez moyen car c’est une compétence que je n’utilise que de manière assez sporadique. Mais ChatGPT remédie en partie à mes lacunes. Il suffit que je lui explique ce que je veux et je lui demande une première mouture du programme. Elle est en général imparfaite mais suffisante pour que je puisse l’utiliser comme point de départ et l’adapter. Et si j’éprouve d’autres difficultés, je peux toujours demander des éclaircissements ou d’autres blocs de code connexes (routines, fonctions…).

Pour rebondir là-dessus, cela ne se limite pas à la programmation au sens strict. Pour prendre un exemple personnel récent, je voulais utiliser un langage textuel pour décrire et générer les diagrammes de mon blog, mais je ne connaissais pas de langage permettant de le faire. J’ai demandé à ChatGPT non seulement de me proposer des langages de description graphiques mais aussi de générer une première mouture du code correspondant. C’est ainsi que j’ai appris à utiliser GraphViz et Mermaid qui répondent élégamment à mes besoins graphiques et me permettent maintenant de générer les diagrammes dont j’ai besoin par le truchement d’un premier codage via ChatGPT.

Bien utilisés par un esprit alerte, ces modèles poussent à la curiosité et à la découverte. La compétence horizontale et universelle de ces modèles en fait des assistants idéaux, non seulement pour exécuter des tâches précises, mais également pour enrichir et discuter librement d’idées partiellement formées.

Les modèles de langage sont certes assez doués pour générer des volumes importants de texte syntaxiquement corrects. Malheureusement, leur tendance structurelle à halluciner restreint leurs applications pratiques. Il subsiste toutefois un certain nombre de domaines dans lesquels la forme et l’originalité priment sur l’exactitude, et donc sont susceptibles d’être transformés en profondeur par les modèles de langage, comme :

  • Le support à la réalisation d’oeuvres de fiction sous toutes leurs formes : littérature, cinéma etc…, puisque dans ce cas seul le caractère plausible et créatif du texte importe et non son exactitude.
  • Les activités purement rédactionnelles, dans lesquelles l’effort principal est la génération du texte en tant que tel, alors que le contenu est déjà connu de l’utilisateur, qui pourra rapidement adapter le texte si besoin est. Ce champ d’action est assez large, et reprend par exemple de nombreuses activités marketing et promotionelles, la correspondance administrative etc…

Bien sûr, si les hallucinations peuvent être suffisamment réduites voire éliminées des modèles futurs, le champ applicatif s’élargira considérablement.

Pourquoi les Modèles de Langage ont-ils une fâcheuse tendance à halluciner? N’oublions pas que le modèle cherche toujours à prédire le mot le plus probable. En pratique, cela va parfois le pousser à « broder » une réponse là où il n’a pas été exposé à des données pertinentes. Et la pertinence des données est le second point faible. Ces modèles ont été entraînés grosso modo sur l’ensemble d’Internet et, vu la taille, il est pratiquement impossible d’éliminer les informations inexactes avant l’entraînement. Donc le modèle se retrouve parfois exposé à des informations erronées lors de son entraînement. Inexactitudes qu’ils n’hésitera pas à vous exposer fièrement à la première occasion.

Mais il y a pire : comme ces modèles sont utilisés pour générer du nouveau contenu sur internet (blogs, tweets…), qui va à son tour servir à entraîner la prochaine génération de modèles générationnels, on risque de se retrouver dans la situation du serpent qui se mord la queue…

Soit on arrive à mettre en place une réglementation qui permet d’identifier systématiquement le contenu autogénéré (par exemple via le watermarking) et on arrive progressivement à améliorer la pertinence des bases d’entraînement, soit on n’y arrive pas et les modèles divergent progressivement et deviennent de moins en moins fiables.

La régulation arrive toujours en retard, et c’est normal. Le RGPD est arrivé il y a environ cinq ans pour réglementer les réseaux sociaux et a suscité une prise de conscience progressive quant à la désinformation et le caractère confidentiel des données personnelles.

Maintenant il va falloir essayer de faire la même chose avec l’ Artificial Intelligence Act en cours de ratification par l’Union Européenne, loi qui doit d’ailleurs être modifiée pour tenir compte des modèles génératifs qui sont apparus en plein milieu du processus législatif…

Un dernier rappel sur la sécurité : actuellement toutes vos intractions avec ChatGPT sont envoyées à OpenAI et cela pose un sérieux souci de confidentialité. Il en est de même pour les autres modèles. Cela semble difficilement acceptable pour de nombreuses applications en entreprise, sans parler des données personnelles, qui sont allergiques à tout voyage transatlantique…

Utilisation des modèles conversationnels VI : Les alternatives à ChatGPT

L’offre de modèles conversationnels s’est fortement étoffée à la mi-juillet avec la mise à disposition successive de Claude 2 d’Anthropic le 11 juillet de Google Bard le 13 juillet, qui viennent rejoindre ChatGPT et Bing Chat. Je vais tenter dans ce qui suit de comparer les quatre différents produits sur le marché, mais notons d’emblée qu’ils se classent en deux familles d’utilisation :

  • Les assistants de productivité qui vont exceller dans la discussion ouverte et la génération d’idées et de contenu grâce à leurs capacités de raisonnement et de créativité, mais ne sont pas orientés vers la recherche d’informations temps réel sur internet. ChatGPT et Claude 2 font partie de cette catégorie.
  • Les moteurs de recherche conversationnels dans lesquels se rangent Bing Chat et Google Bard. Ils excellent dans la construction d’une réponse argumentée par une recherche sur internet, et répondent donc à une autre besoin.

1. OpenAI ChatGPT

ChatGPT en version 3.5 est accessible à la fois via l’interface web chat.openai.com et via l’app mobile ChatGPT qui est disponible à la fois pour iOS et pour Android. Le modèle ChatGPT v3.5 est accessible gratuitement sans limitation de volume de conversations, moyennant inscription préalable.

L’abonnement à ChatGPT+, qui coûte 20 USD par mois, donne en outre accès au modèle ChatGPT4 via la même interface, mais avec une limitation à 50 échanges toutes les 3 heures. Les dialogues avec ChatGPT4 sont en général de qualité nettement supérieure à ceux avec ChatGPT 3.5.

ChatGPT+ donne aussi accès à deux fonctionnalités additionnelles très intéressantes :

  • L’ interpréteur de code qui va permettre à ChatGPT de générer et d’exécuter automatiquement du code dans un environnement sécurisé et de vous renvoyer les résultats. Vous pouvez aussi lui envoyer des fichiers de données pour traitement, ce qui en fait un outil très efficace d’analyse de données.
  • L’ intégration avec une centaine de programmes applicatifs (plug-ins); ces programmes offrent des fonctionnalités variées que ChatGPT peut exploiter pour répondre à la demande de l’utilisateur: commandes de produits, intégration avec d’autres applications….

Malheureusement, ces fonctionnalités avancées nécessitent l’abonnement payant. La figure ci-dessous montre un exemple d’analyse de données automatisé via l’interpréteur de code: j’ai envoyé à ChatGPT une série d’indicateurs macro-économiques par pays et lui ai demandé en retour la corrélation entre la fertilité et le PIB par habitant.

Figure 1 : Analyse de données avec l’interpréteur de code de ChatGPT

ChatGPT est l’outil le plus connu, le plus largement disponible et le plus polyglotte puisqu’il est capable de converser en plus de 80 langues. ChatGPT est également réputé pour l’originalité et la richesse du texte généré, ce qui en fait un assistant idéal pour les activités créatives. Ses capacités de programmation sont également excellentes.

Un point faible de ChatGPT : l’entraînement a eu lieu sur des données datant de septembre 2021 et il n’est (temporairement ?) pas possible d’actualiser les informations via une recherche sur le web.

ChatGPT n’offre à ce jour pas non plus de multimodalité : il n’accepte que du texte en entrée et ne génère que du texte en sortie. Pas moyen de lui demander d’analyser ou de générer directement une image par exemple.

La taille limitée de la fenêtre de contexte à 4.096 tokens ne permet pas l’analyse de documents complexes ou de gros volumes de données. Si c’est ce que voulez faire, regardez plutôt Claude 2 ci-dessous.

Les plans d’OpenAI pour le futur visent à remédier à ces limitations : il est question d’introduire la multimodalité l’année prochaine et d’agrandir la fenêtre de contexte potentiellement jusqu’à un million de tokens, tout en réduisant le coût de la souscription à ChatGPT+.

2. Microsoft Bing Chat

Bing Chat est basé sur OpenAI et accessible sur le web à l’adresse chat.bing.com, à condition de posséder le navigateur Microsoft Edge, ce qui rend l’accès par le web malaisé pour beaucoup d’utilisateurs. Par contre, Bing Chat possède à la fois une application iOS et Android ce qui rend l’accès par mobile très confortable.

Microsoft Bing Chat est fondamentalement un engin de recherche conversationnel : il exécute des recherches internet et les intègre tout en mentionnant les liens. Bing Chat se distingue dans ce domaine.

Figure 2 : Bing Chat comme modèle de recherche conversationnel

Bing Chat est multimodal : il est à la fois capable de générer des images sur base d’une requête textuelle (text-to-image), mais aussi d’accepter des fichiers d’images en entrée pour analyse (image-to-text). Cette multimodalité est un avantage majeur qui offre de nombreuses applications -comme la reconnaissance de caractères ou la détection d’objets

Figure 3: Bing Chat utilisé comme générateur d’images

L’utilisation de Bing Chat est gratuite.

Bing Chat repose en réalité sur la technologie d’OpenAI. Le modèle conversationnel est une version modifiée de GPT4, et le générateur d’image est DALL-E-2.

Les grands atouts de Bing Chat sont l’ intégration du générateur d’images et la capacité à intégrer des recherches web dans la réponse en mentionnant les références. C’est donc un excellent outil de recherche.

3. Google Bard

Google déploie actuellement son interface conversationnelle pays par pays. L’accès web se fait via l’adresse bard.google.com. Les pays de l’Union Européenne – dont la Belgique- peuvent accéder à Google Bard depuis le 13 juillet 2023. Le support multilingue de Bard suit le déploiement géographique et le modèle est actuellement capable de converser en une quarantaine de langues.

Figure 4 : Google Bard et ses capacités d’analyse d’image

L’accès web à Google Bard peut se faire depuis n’importe quel navigateur et demande seulement de posséder un compte Google, ce que la plupart des utilisateurs possèdent déjà. Par contre, aucune app pour iOS ou Android n’existe encore.

L’utilisation de Bard est gratuite. Bard a deux grands atouts.

Son premier atout est un grand confort d’utilisation :

  • Bard génère systématiquement plusieurs réponses possibles, et vous pouvez choisir celle qui vous convient le mieux.
  • Bard permet de modifier la réponse de cinq manières : texte plus long, plus court, plus simple, plus informel, plus professionnel. De nouveau, simple mais très utile.
  • Comme Bing Chat, Bard est capable d’intégrer des résultats de recherches -c’est Google après tout- qui sont en rapport avec la conversation, il est donc en mesure de fournir des réponses à jour.
  • Bard est intégré avec les outils Google comme Google Docs et Google mail, ce qui va vous permettre d’exporter le texte généré très facilement dans ces outils.

Le deuxième atout est son caractère multimodal : Bard est capable d’interpréter une image fournie par l’utilisateur (image-to-text). Bard est également capable de vous montrer des images correspondant à votre demande ou recherche, mais il s’agit d’images existantes trouvées sur internet. Par contre, Bard, n’est pas (encore?) capable de générer des images de synthèse sur base d’une description fournie par l’utilisateur comme le fait Bing Chat.

Au niveau des points faibles, c’est assez subjectif mais je trouve que les dialogues fournis par Bard sont moins formels, moins structurés que ceux des autres modèles, et qu’il fait plus facilement des erreurs de raisonnement.

Pour résumer, je trouve l’offre de Google intéressante. Bard est excellent en termes de multimodalité et de confort d’utilisation. La partie modèle de langage me semble moins robuste mais ce n’est pas insoluble, surtout avec les ressources de Google. C’est pour moi l’outsider à suivre.

4. Anthropic Claude 2

Claude 2, développé par Anthropic est le quatrième acteur. Il est accessible depuis le 11 juillet 2023 au grand public aux USA et en Grande-Bretagne moyennant inscription. Claude 2 n’est pas encore accessible en Belgique mais ceci peut aisément être contourné au moyen d’un VPN. Le lien pour accéder à Claude 2 est : claude.ai.

L’utilisation de Claude 2 est gratuite.

Figure 5 : Utilisation de Claude 2

Claude 2 n’est pas multimodal : il n’accepte et ne génère que du texte. Il ne possède pas non plus d’interface de recherche sur le web pour se tenir à jour, et les données qui ont servi à l’entraînement datent de début 2023, ce qui est plus récent que ChatGPT.

Son grand atout est qu’il est le seul outil capable d’interpréter des textes volumineux (fenêtre de contexte de 100.000 tokens, ce qui correspond à plus ou moins 70.000 mots !). Vous pouvez également lui envoyer plusieurs documents et poser des questions sur l’ensemble.

Claude 2 se distingue aussi par l’importance centrale accordée au cractère éthique des réponses fournies par le modèle. Claude utilise une approche spéciale appelée IA Constitutionnelle pour enseigner au modèle un ensemble de principes moraux dérivés notamment de la Déclaration Universelle des Droits de L’Homme.

Enfin, des tests comparatifs suggèrent que Claude 2 est comparable à ChatGPT pour la rédaction de code informatique, et il est possible de lui soumettre des fichiers de données pour analyse.

5. Choix du modèle

Si vous cherchez un assistant de productivité, la question est de savoir si votre scénario d’utilisation justifie la dépense pour ChatGPT+. Ce sera notamment le cas si vous devez utiliser les plugins ou l’interpréteur de code, ou encore si la notoriété du produit ou la créativité sont essentiels pour vous. Dans le cas contraire, vous êtes probablement mieux loti avec Claude 2 qu’avec ChatGPT 3.5.

Si vous cherchez un moteur de recherche conversationnel, ma préférence va actuellement à Bing Chat qui est plus correct et plus précis que Bard, mais tout en gardant un oeil sur les progrès de Bard. Tous deux sont gratuits.

Si vous cherchez un analyste d’images, orientez-vous vers Google Bard et Bing Chat, eux seuls sont capables d’interpréter des images fournies par l’utilisateur à ce jour.

Et si vous avez besoin d’ un générateur d’images conversationnel, la seule possibilité parmi les modèles évoqués est Bing Chat. Si cette fonctionnalité est au coeur de vos besoins, vous pouvez aussi vous tourner vers des applications spécialisées en génération d’image comme Stable Diffusion ou Midjourney.

Un dernier mot pour indiquer que des modèles open-source commencent à être accessibles sur le Web, comme Meta LlaMa-2 qui est accessible sur le site de Perplexity.ai. L’ émergence de ces modèles est récente et offre de nouvelles perspectives d’entraînement et d’utilisation mais fait aussi apparaître de nouveaux risques…