Utilisation des modèles conversationnels VI : Les alternatives à ChatGPT

L’offre de modèles conversationnels s’est fortement étoffée à la mi-juillet avec la mise à disposition successive de Claude 2 d’Anthropic le 11 juillet de Google Bard le 13 juillet, qui viennent rejoindre ChatGPT et Bing Chat. Je vais tenter dans ce qui suit de comparer les quatre différents produits sur le marché, mais notons d’emblée qu’ils se classent en deux familles d’utilisation :

  • Les assistants de productivité qui vont exceller dans la discussion ouverte et la génération d’idées et de contenu grâce à leurs capacités de raisonnement et de créativité, mais ne sont pas orientés vers la recherche d’informations temps réel sur internet. ChatGPT et Claude 2 font partie de cette catégorie.
  • Les moteurs de recherche conversationnels dans lesquels se rangent Bing Chat et Google Bard. Ils excellent dans la construction d’une réponse argumentée par une recherche sur internet, et répondent donc à une autre besoin.

1. OpenAI ChatGPT

ChatGPT en version 3.5 est accessible à la fois via l’interface web chat.openai.com et via l’app mobile ChatGPT qui est disponible à la fois pour iOS et pour Android. Le modèle ChatGPT v3.5 est accessible gratuitement sans limitation de volume de conversations, moyennant inscription préalable.

L’abonnement à ChatGPT+, qui coûte 20 USD par mois, donne en outre accès au modèle ChatGPT4 via la même interface, mais avec une limitation à 50 échanges toutes les 3 heures. Les dialogues avec ChatGPT4 sont en général de qualité nettement supérieure à ceux avec ChatGPT 3.5.

ChatGPT+ donne aussi accès à deux fonctionnalités additionnelles très intéressantes :

  • L’ interpréteur de code qui va permettre à ChatGPT de générer et d’exécuter automatiquement du code dans un environnement sécurisé et de vous renvoyer les résultats. Vous pouvez aussi lui envoyer des fichiers de données pour traitement, ce qui en fait un outil très efficace d’analyse de données.
  • L’ intégration avec une centaine de programmes applicatifs (plug-ins); ces programmes offrent des fonctionnalités variées que ChatGPT peut exploiter pour répondre à la demande de l’utilisateur: commandes de produits, intégration avec d’autres applications….

Malheureusement, ces fonctionnalités avancées nécessitent l’abonnement payant. La figure ci-dessous montre un exemple d’analyse de données automatisé via l’interpréteur de code: j’ai envoyé à ChatGPT une série d’indicateurs macro-économiques par pays et lui ai demandé en retour la corrélation entre la fertilité et le PIB par habitant.

Figure 1 : Analyse de données avec l’interpréteur de code de ChatGPT

ChatGPT est l’outil le plus connu, le plus largement disponible et le plus polyglotte puisqu’il est capable de converser en plus de 80 langues. ChatGPT est également réputé pour l’originalité et la richesse du texte généré, ce qui en fait un assistant idéal pour les activités créatives. Ses capacités de programmation sont également excellentes.

Un point faible de ChatGPT : l’entraînement a eu lieu sur des données datant de septembre 2021 et il n’est (temporairement ?) pas possible d’actualiser les informations via une recherche sur le web.

ChatGPT n’offre à ce jour pas non plus de multimodalité : il n’accepte que du texte en entrée et ne génère que du texte en sortie. Pas moyen de lui demander d’analyser ou de générer directement une image par exemple.

La taille limitée de la fenêtre de contexte à 4.096 tokens ne permet pas l’analyse de documents complexes ou de gros volumes de données. Si c’est ce que voulez faire, regardez plutôt Claude 2 ci-dessous.

Les plans d’OpenAI pour le futur visent à remédier à ces limitations : il est question d’introduire la multimodalité l’année prochaine et d’agrandir la fenêtre de contexte potentiellement jusqu’à un million de tokens, tout en réduisant le coût de la souscription à ChatGPT+.

2. Microsoft Bing Chat

Bing Chat est basé sur OpenAI et accessible sur le web à l’adresse chat.bing.com, à condition de posséder le navigateur Microsoft Edge, ce qui rend l’accès par le web malaisé pour beaucoup d’utilisateurs. Par contre, Bing Chat possède à la fois une application iOS et Android ce qui rend l’accès par mobile très confortable.

Microsoft Bing Chat est fondamentalement un engin de recherche conversationnel : il exécute des recherches internet et les intègre tout en mentionnant les liens. Bing Chat se distingue dans ce domaine.

Figure 2 : Bing Chat comme modèle de recherche conversationnel

Bing Chat est multimodal : il est à la fois capable de générer des images sur base d’une requête textuelle (text-to-image), mais aussi d’accepter des fichiers d’images en entrée pour analyse (image-to-text). Cette multimodalité est un avantage majeur qui offre de nombreuses applications -comme la reconnaissance de caractères ou la détection d’objets

Figure 3: Bing Chat utilisé comme générateur d’images

L’utilisation de Bing Chat est gratuite.

Bing Chat repose en réalité sur la technologie d’OpenAI. Le modèle conversationnel est une version modifiée de GPT4, et le générateur d’image est DALL-E-2.

Les grands atouts de Bing Chat sont l’ intégration du générateur d’images et la capacité à intégrer des recherches web dans la réponse en mentionnant les références. C’est donc un excellent outil de recherche.

3. Google Bard

Google déploie actuellement son interface conversationnelle pays par pays. L’accès web se fait via l’adresse bard.google.com. Les pays de l’Union Européenne – dont la Belgique- peuvent accéder à Google Bard depuis le 13 juillet 2023. Le support multilingue de Bard suit le déploiement géographique et le modèle est actuellement capable de converser en une quarantaine de langues.

Figure 4 : Google Bard et ses capacités d’analyse d’image

L’accès web à Google Bard peut se faire depuis n’importe quel navigateur et demande seulement de posséder un compte Google, ce que la plupart des utilisateurs possèdent déjà. Par contre, aucune app pour iOS ou Android n’existe encore.

L’utilisation de Bard est gratuite. Bard a deux grands atouts.

Son premier atout est un grand confort d’utilisation :

  • Bard génère systématiquement plusieurs réponses possibles, et vous pouvez choisir celle qui vous convient le mieux.
  • Bard permet de modifier la réponse de cinq manières : texte plus long, plus court, plus simple, plus informel, plus professionnel. De nouveau, simple mais très utile.
  • Comme Bing Chat, Bard est capable d’intégrer des résultats de recherches -c’est Google après tout- qui sont en rapport avec la conversation, il est donc en mesure de fournir des réponses à jour.
  • Bard est intégré avec les outils Google comme Google Docs et Google mail, ce qui va vous permettre d’exporter le texte généré très facilement dans ces outils.

Le deuxième atout est son caractère multimodal : Bard est capable d’interpréter une image fournie par l’utilisateur (image-to-text). Bard est également capable de vous montrer des images correspondant à votre demande ou recherche, mais il s’agit d’images existantes trouvées sur internet. Par contre, Bard, n’est pas (encore?) capable de générer des images de synthèse sur base d’une description fournie par l’utilisateur comme le fait Bing Chat.

Au niveau des points faibles, c’est assez subjectif mais je trouve que les dialogues fournis par Bard sont moins formels, moins structurés que ceux des autres modèles, et qu’il fait plus facilement des erreurs de raisonnement.

Pour résumer, je trouve l’offre de Google intéressante. Bard est excellent en termes de multimodalité et de confort d’utilisation. La partie modèle de langage me semble moins robuste mais ce n’est pas insoluble, surtout avec les ressources de Google. C’est pour moi l’outsider à suivre.

4. Anthropic Claude 2

Claude 2, développé par Anthropic est le quatrième acteur. Il est accessible depuis le 11 juillet 2023 au grand public aux USA et en Grande-Bretagne moyennant inscription. Claude 2 n’est pas encore accessible en Belgique mais ceci peut aisément être contourné au moyen d’un VPN. Le lien pour accéder à Claude 2 est : claude.ai.

L’utilisation de Claude 2 est gratuite.

Figure 5 : Utilisation de Claude 2

Claude 2 n’est pas multimodal : il n’accepte et ne génère que du texte. Il ne possède pas non plus d’interface de recherche sur le web pour se tenir à jour, et les données qui ont servi à l’entraînement datent de début 2023, ce qui est plus récent que ChatGPT.

Son grand atout est qu’il est le seul outil capable d’interpréter des textes volumineux (fenêtre de contexte de 100.000 tokens, ce qui correspond à plus ou moins 70.000 mots !). Vous pouvez également lui envoyer plusieurs documents et poser des questions sur l’ensemble.

Claude 2 se distingue aussi par l’importance centrale accordée au cractère éthique des réponses fournies par le modèle. Claude utilise une approche spéciale appelée IA Constitutionnelle pour enseigner au modèle un ensemble de principes moraux dérivés notamment de la Déclaration Universelle des Droits de L’Homme.

Enfin, des tests comparatifs suggèrent que Claude 2 est comparable à ChatGPT pour la rédaction de code informatique, et il est possible de lui soumettre des fichiers de données pour analyse.

5. Choix du modèle

Si vous cherchez un assistant de productivité, la question est de savoir si votre scénario d’utilisation justifie la dépense pour ChatGPT+. Ce sera notamment le cas si vous devez utiliser les plugins ou l’interpréteur de code, ou encore si la notoriété du produit ou la créativité sont essentiels pour vous. Dans le cas contraire, vous êtes probablement mieux loti avec Claude 2 qu’avec ChatGPT 3.5.

Si vous cherchez un moteur de recherche conversationnel, ma préférence va actuellement à Bing Chat qui est plus correct et plus précis que Bard, mais tout en gardant un oeil sur les progrès de Bard. Tous deux sont gratuits.

Si vous cherchez un analyste d’images, orientez-vous vers Google Bard et Bing Chat, eux seuls sont capables d’interpréter des images fournies par l’utilisateur à ce jour.

Et si vous avez besoin d’ un générateur d’images conversationnel, la seule possibilité parmi les modèles évoqués est Bing Chat. Si cette fonctionnalité est au coeur de vos besoins, vous pouvez aussi vous tourner vers des applications spécialisées en génération d’image comme Stable Diffusion ou Midjourney.

Un dernier mot pour indiquer que des modèles open-source commencent à être accessibles sur le Web, comme Meta LlaMa-2 qui est accessible sur le site de Perplexity.ai. L’ émergence de ces modèles est récente et offre de nouvelles perspectives d’entraînement et d’utilisation mais fait aussi apparaître de nouveaux risques…