Mistral Medium 3.5 : self-host sur 4 GPU, l'argument souveraineté PME

Pour une PME ou une administration européenne, la question IA n’est pas seulement « quel modèle est le meilleur ? » mais « lequel puis-je faire tourner chez moi, sous mon contrôle ? ». C’est précisément là que Mistral pousse son avantage avec Medium 3.5 : un modèle performant, self-hostable sur quatre GPU, et publié en open weights. Décryptage de ce que cet argument souveraineté change concrètement.

Le cœur de l’argument : 4 GPU et open weights

Mistral décrit Medium 3.5 comme « un modèle dense de 128B avec une fenêtre de contexte de 256k », capable de tourner « self-hosted sur seulement quatre GPU ». Ce chiffre est l’élément central : faire tourner un modèle de classe flagship sur quatre GPU le met à portée d’une PME ou d’une collectivité disposant d’une infrastructure modeste, là où les modèles concurrents exigent souvent des parcs bien plus lourds.

Ajoutez la sortie en open weights sous licence MIT modifiée, et vous obtenez le triptyque souveraineté : modèle maîtrisable, données qui ne sortent pas, coût d’infrastructure raisonnable. Pour une organisation soumise à des obligations de souveraineté ou de confidentialité, c’est un déblocage.

Des performances qui tiennent la comparaison

Le self-host ne sert à rien si le modèle est faible. Or Medium 3.5 affiche des scores solides : 77,6 % sur SWE-Bench Verified (génération de correctifs de code réels) et 91,4 sur τ³-Telecom pour les capacités agentiques. Le modèle est pensé pour les « tâches à long horizon, appelant plusieurs outils de façon fiable ».

Nuance d’ingénieur à garder en tête : un score de benchmark n’est pas une garantie de performance sur votre cas métier. Mais ces chiffres situent Medium 3.5 dans la cour des modèles agentiques sérieux, pas dans celle des modèles « souverains mais en retrait ».

Effort de raisonnement configurable : un seul modèle, deux usages

Nouveauté pratique : « l’effort de raisonnement est désormais configurable par requête ». Le même modèle peut donc répondre à un chat rapide ou mener une tâche agentique complexe selon le budget de calcul que vous lui accordez. Pour une PME, c’est un levier de coût direct : pas besoin de jongler entre un petit et un gros modèle — vous dosez l’effort au cas par cas.

Cette logique alimente le Work mode de Le Chat, où l’agent « appelle des outils en parallèle jusqu’à ce que la tâche soit terminée », et les agents de codage distants qui tournent en parallèle pendant que vous êtes ailleurs.

API ou self-host : le bon arbitrage

Medium 3.5 est disponible via Vibe et Le Chat sur les plans Pro, Team et Enterprise, avec une tarification API de 1,5 $ par million de tokens en entrée et 7,5 $ par million en sortie. Deux chemins s’offrent donc à une PME :

Critère	API Mistral (cloud EU)	Self-host (4 GPU, open weights)
Mise en route	Immédiate	Investissement infra initial
Souveraineté données	Hébergement EU	Données 100 % chez vous
Coût	À l’usage (1,5/7,5 $/M)	Coût fixe GPU amorti
Maîtrise du modèle	Géré par Mistral	Poids ouverts, contrôle total
Idéal pour	Démarrage, volumes variables	Volumes stables, contraintes fortes

La logique : commencer par l’API hébergée en Europe pour valider la valeur, puis basculer vers le self-host quand les volumes se stabilisent ou que les contraintes de souveraineté l’imposent. L’open weights garantit que ce passage reste possible — vous n’êtes pas verrouillé.

FAQ

Peut-on vraiment self-héberger Mistral Medium 3.5 sur 4 GPU ?

Oui. Mistral décrit Medium 3.5 comme un modèle dense de 128B avec une fenêtre de contexte de 256k, qui peut être self-hosted sur seulement quatre GPU. Couplé à une sortie en open weights sous licence MIT modifiée, c’est l’argument clé pour une PME ou une administration européenne soumise à des obligations de souveraineté des données.

Quelles performances affiche Mistral Medium 3.5 ?

Le modèle atteint 77,6 % sur SWE-Bench Verified et 91,4 sur τ³-Telecom pour les capacités agentiques. L’effort de raisonnement est configurable par requête, de sorte que le même modèle peut répondre à un chat rapide ou mener une tâche agentique complexe selon le budget de calcul accordé.

Combien coûte Mistral Medium 3.5 en API ?

La tarification API est de 1,5 $ par million de tokens en entrée et 7,5 $ par million de tokens en sortie. Le modèle est disponible via Vibe et Le Chat sur les plans Pro, Team et Enterprise, avec une sortie en open weights sous licence MIT modifiée pour le self-host.

Pour les workflows d’agents distants, lisez Mistral Vibe : agents distants et workflows pour PME en 2026. Et pour comparer Medium 3.5 face à la référence d’Anthropic, consultez Mistral Medium 3.5 vs Claude Sonnet 4.6 pour PME (128B, open weights).

Note : les specs, prix et conditions de licence de Mistral Medium 3.5 peuvent évoluer. Référez-vous aux annonces et à la documentation officielles de Mistral AI pour l’état à jour.