Mistral : la start-up française qui fait du bruit

Voici quelques semaines que la start-up française Mistral fait beaucoup parler d’ elle dans le monde de l’ IA générative.

Fondée en mai 2023 par trois ingénieurs venant de Google Deepmind, Mistral a déjà levé 385 millions d’ euros de capitaux en six mois et est actuellement valorisée à environ 2 milliards d’ euros!

Cette croissace effrénée positionne d’ ores et déjà Mistral comme un des acteurs majeurs du secteur et un concurrent sérieux d’ OpenAI.

Mistral continue à développer ses modèles et capacités, et pourrait bien jouer un rôle-clé dans le futur développement de l’ IA européenne. L’ approche open-source de l’ entreprise et son engagement éthique s’ alignent avec les préférences de nombreuses entreprises européennes.

Le succès de Mistral est supporté par l’ existence d’ un écosystème IA français qui ne cesse de se renforcer. La French Tech bénéficie en effet d’un climat favorable : Xavier Niel a annoncé en septembre des investissements stratégiques dans l’ IA estimés à environ 200 millions d’euros. Ces investissements sont pour partie destinés à acheter des coprocesseurs graphiques (GPU) chez Nvidia afin de doter la société de services cloud Scaleway de la puissance de calcul nécessaire à l’ IA et la mettre à la disposition des start-ups européennes.

Mais l’ argent et la puissance de calcul ne sont pas tout, il faut également une concentration de talents. En novembre, la création de Kyutai a été annoncée, un nouveau laboratoire de recherche IA basé à Paris et bénéficiant de 300 millions d’ euros d’ investissement, à la tête duquel se trouvent des pointures de l’ IA venant de Google et Meta. De fait, les laboratoires de recherche de Google Deepmind et de Meta, présents dans la région, constituent un réservoir de talents qui va pouvoir irriguer les nouvelles entreprises.

De son côté, Station F, un des plus grands incubateurs de start-ups technologiques au monde, se trouve également à Paris, accompagne les premiers pas des jeunes pousses et joue un rôle fédérateur, à travers notamment des événements comme AI-Pulse.

Tout ceci signifie que la France commence à sérieusement concurrencer la Grande-Bretagne, jusqu’ ici acteur dominant de l’ IA européenne.

Il faut mentionner ce développement positif : on entend souvent parler de start-ups européennes qui partent se développer aux USA lorsque leurs besoins en capitaux augmentent, mais l’ inverse commence aussi à se produire : la société américaine Poolside AI a décidé de déménager à Paris, attirée notamment par des coûts salariaux moins exorbitants qu’ aux Etats-Unis…

Modèles Mistral disponibles

Voyons maintenant un peu plus en détail les modèles publiés par Mistral. Il y en a trois, appelés Mistral-7B, Mixtral-8x7B et Mistral-Medium, par ordre de puissance croissante.

  • Mistral-7B ne converse qu’ en Anglais et comporte 7 milliards de paramètres, ce qui le rend exécutable localement sur la plupart des ordinateurs actuels. Ce modèle est disponible librement en open-source.
  • Mixtral-8x7B comprend l’Anglais, le Français, l’Allemand, l’Italien et l’Espagnol. Son architecture est appelée « mixture d’ experts ». Ce modèle est aussi disponible en open-source. mais vu sa taille, seules des machines spécialisées peuvent le faire fonctionner.
  • Mistral-medium : il s’agit d’une version améliorée de Mixtral-8x7B avec la même architecture de base. Mistral déclare que ses performances sont proches de GPT-4 et qu’il excelle dans les tâches de programmation. Ce modèle n’est pas disponible en open-source, il faut demander accès (payant) via l’interface de programmation Mistral.

L’ architecture de type Mixture of Experts utilisée par Mixtral-8x7B comprend 8 groupes distincts de paramètres, plus un bloc de supervision qui n’ active que les deux groupes les plus pertinents lors du passage à travers chaque couche du modèle, puis les recombine ensuite. Cette approche innovante permet au modèle, qui compte 46,7 milliards de paramètres, de n’ exiger « que » la puissance de calcul d’ un modèle de 13 milliards de paramètres. La génération est donc accélérée d’ un facteur 3,5 environ. On soupçonne d’ ailleurs que GPT-4 -dont l’architecture n’ a pas été publiée- utilise lui aussi un modèle de ce type, les rumeurs faisant état de 8 experts de 220 milliards de paramètres chacun (soit 1,7 trillions de paramètres au total).

Une grande partie de l’ engouement pour Mistral provient de la performance de ces modèles par rapport à leur taille. Vous pouvez voir que Mixtral-8x7B est très bien positionné dans le classement réalisé par HuggingFace :

Figure 1 : Classement des LLM selon HuggingFace Chatbot Arena Leaderboard

J’expliquerai dans un prochain article comment faire fonctionner des modèles localement, mais en attendant, vous pouvez essayer les trois modèles de Mistral sur l’ interface web de Perplexity.ai accessible ici.

Il vous suffit de choisir le modèle désiré via le menu déroulant dans le coin inférieur droit (qui permet aussi de choisir d’ autres modèles, les noms débutant par pplx correspondent à ceux développés par Perplexity.ai).