Tour d’horizon de l’ offre générative disponible en novembre 2023

L’ offre de solutions génératives va bien au-delà des modèles de langage qui ont défrayé la chronique en 2023. Différentes modalités et services sont en effet accessibles à l’ utilisateur, et il est temps d’ en faire le tour avant l’ arrivée imminente des modèles multimodaux qui promettent de bouleverser l’offre.

La liste qui suit n’ a pas la prétention d’ être exhaustive, de nouvelles sociétés apparaissant sur une base presque quotidienne. Mon but est plutôt d’ illustrer l’ éventail des possibilités disponibles aujourd’hui, particulièrement dans des domaines moins souvent évoqués comme la vidéo ou la 3D.

Les modalités que je couvre dans cet article sont les suivantes :

  • Conversation textuelle
  • Assistance à la programmation
  • Génération et analyse audio (voix et musique)
  • Génération et analyse d’image
  • Génération vidéo
  • Génération de modèles 3D

Voici la liste complète des services mentionné dans cet article. La fonctionnalité proposée par le service est indiquée en vert au-dessus de l’ icône représentant le service. Vous trouverez les liens d’ accès aux différents services dans les paragraphes ci-dessous.

Figure 1 : L’ offre générative disponible, classée par modalité

Analysons maintenant l’ offre pour chacune des modalités.

1. Modèles conversationnels (texte)

Il s’ agit des modèles avec lesquels il est possible de dialoguer de manière interactive comme chatGPT, Claude, Bard etc… je n’ en parlerai pas plus en détail ici vu le nombre d’ article que je leur ai déjà consacrés dans le passé.

Juste un petit mot pour indiquer que Llama 2, Mistral et Falcon sont des modèles open-source et qu’ il vous est possible de les exécuter localement, sous réserve de disposer d’une machine suffisamment puissante.

2. Assistants de programmation

Les assistants de programmation sont en réalité des modèles conversationnels qui ont été affinés sur du code informatique et intégrés dans un environnement de programmation (IDE).

Ils vous proposent des suggestions de code sur base de votre code existant et/ou de descriptions textuelles que vous introduisez.

Github Copilot et Amazon CodeWhisperer sont offerts comme modules additionnels (plug-ins) qui s’intègrent dans un environnement de développement installé localement comme VSCode.

Replit et Tabnine fonctionnent de manière similaire mais l’ensemble de l’environnement, assistant compris, se trouve dans le cloud.

3. Modèles audio

Les modèles audio offrent de nombreuses possibilités. OpenAI TTS et Elevenlabs proposent de faire réciter un texte par une voix synthétique, tandis que Google MusicLM et OpenAI Jukebox génèrent de la musique synthétique (paroles comprises) sur base d’une idée musicale décrite de manière textuelle.

Vous pouvez accéder ici à une série de morceaux de musique générés par MusicLM.

Mais il est aussi possible de travailler en sens inverse : c’est la reconnaissance vocale; elle génère le texte correspondant à une voix. OpenAI Whisper offre une fonctionnalité de ce type, et OpenAI a intégré à la fois TTS et Whisper à l’application mobile ChatGPT ce qui vous permet de discuter verbalement avec votre modèle conversationnel favori lorsque vous êtes en déplacement…

De son côté, Veed.io exploite la reconnaissance vocale pour générer automatiquement des sous-titres dans une vidéo.

4. Modèles d’image

Comme pour les modèles audio, on retrouve deux grandes familles de services : ceux qui génèrent une image à partir d’une description textuelle, et ceux qui interprètent le contenu d’une image que vous leur fournissez.

Dans la première catégorie, on retrouve Dall-E 3, Midjourney et StableDiffusion XL, et dans la seconde catégorie OpenAI GPT-4V et Google VisionAI.

Ces moteurs sont en général accessibles de manière transparente via l’assistant conversationnel :

  • ChatGPT permet de générer des images via DALL-E 3 et de les analyser via GPT4-V;
  • Google Bard peut analyser des images via VisionAI selon un mécanisme analogue;
  • Bing chat peut générer des images via DALL-E 3.

L’ accès à Midjourney est plus complexe car il faut rejoindre le serveur Midjourney sur Discord et demander la génération d’ image à travers un des canaux de chat après inscription préalable.

Enfin, Wonder vous permet de créer des avatars à partir d’ une photo et d’ une description textuelle de vos idées.

5. Modèles vidéo

Alors là, c’est carrément bluffant : vous tapez une simple description textuelle et le modèle génère une vidéo en retour. RunwayML, Fliki et Genmo offrent cette fonctionnalité.

Voici ce que j’ai obtenu avec RunwayML en tapant simplement le texte : Make a video showing the colosseum in Rome with a Porsche driving in front. La vidéo accessible ici ne dure que quatre secondes car c’est la limite permise par Runway pour l’ abonnement gratuit (que je vous conseille d’essayer).

Synthesia est semblable mais se spécialise dans la génération de vidéos dans lesquelles un speaker récite un texte que vous lui soumettez. Ici encore, voici la preuve par l’exemple : une présentation de mon blog par une interlocutrice virtuelle accessible ici.

Enfin, Wonder Studio vous permet d’ intégrer et d’ animer des personnages d’ animation 3D dans une séquence vidéo existante. L’animation peut se faire en remplaçant un acteur réel par le personnage d’animation, et dans ce cas le modèle tiendra compte de l’ éclairage de la scène, des mouvements de la caméra et même des mimiques faciales de l’ acteur. Regardez plutôt ceci pour une présentation des capacités de l’ application…

Mais tant que nous y sommes, peut-on aussi créer un personnage d’ animation grâce à l’ IA générative? La réponse est oui et nous allons maintenant voir comment…

6. Modèles 3D

Il est en effet possible de générer un modèle 3D à partir d’une description textuelle. C’est ce que permet aujourd’hui le modèle Genie de Luma Labs, et bientôt aussi avec Stable3D de StabilityAI et Magic3D de Nvidia.

Comme Midjourney, Genie est accessible via Discord. Après inscription, il vous suffit d’ entrer dans une des sessions de chat et de taper /genie suivi d’une description de l’ objet 3D que vous désirez. Par exemple, le texte exotic otherworldly blue flamingo a généré le modèle 3D que vous pouvez voir ici.

Et voilà, il ne vous reste plus qu’ à réintégrer vos modèles 3D dans Wonder Studio pour débuter dans l’animation….