Mistral Medium 3.5 vs Claude Sonnet 4.6 : 128B open weights pour PME

Le 23 avril 2026, Mistral a annoncé Vibe Remote Agents propulsé par Mistral Medium 3.5. Le timing n’est pas neutre : deux mois après le lancement de Claude Sonnet 4.6 par Anthropic (17 février 2026), Mistral propose un modèle dense 128B paramètres, open weights, à moitié prix de Sonnet 4.6 et avec un score SWE-bench Verified à 2,6 points derrière. Pour une PME francophone qui arbitre entre coût, souveraineté et qualité, ce comparatif change l’équation. Voici les chiffres officiels et les trois décisions d’achat qui en découlent.

Le comparatif chiffré point par point

Sept critères techniques mesurés sur sources primaires Mistral et Anthropic uniquement.

Critère	Mistral Medium 3.5	Claude Sonnet 4.6	Avantage
Date release	23 avril 2026	17 février 2026	—
Architecture	Dense 128B paramètres	Non communiqué	—
Contexte	256 000 tokens	1 000 000 tokens (beta)	Sonnet 4× plus
Prix input	1,5 USD/M	3 USD/M	Mistral −50 %
Prix output	7,5 USD/M	15 USD/M	Mistral −50 %
Licence	Modified MIT (open weights)	API only (closed)	Mistral
Auto-hébergement	Oui, à partir de 4 GPU	Non disponible	Mistral
SWE-bench Verified	77,6 % (devant Devstral 2)	80,2 % avec prompt modification	Sonnet +2,6 pts
Capacités agentic	τ³-Telecom 91,4	Adaptive thinking max effort	Mistral chiffré, Sonnet qualitatif
Multimodal	Frontier-class multimodal	Vision native	Comparable
Origine	France	États-Unis	Souveraineté Mistral pour PME UE

Mistral Medium 3.5 : ce qu’apporte la sortie d’avril 2026

Trois ruptures par rapport à la gamme Mistral antérieure.

Un modèle fusionné chat/raisonnement/code

La fiche officielle décrit Medium 3.5 comme « notre modèle multimodal frontier-class optimisé pour les usages agentic et coding ». C’est la première fois que Mistral fusionne dans un seul jeu de poids les capacités auparavant éclatées entre Devstral (code), Magistral (raisonnement) et Mistral Medium standard (chat). Pour une PME qui n’a pas envie d’orchestrer trois modèles différents selon les tâches, c’est une simplification d’architecture significative.

Licence MIT modifiée — open weights utilisables

La licence est officiellement annoncée comme « Modified MIT license » dans la fiche docs.mistral.ai. Concrètement : les poids 128B sont publiés sur Hugging Face, et l’auto-hébergement est documenté à partir de 4 GPU. Mistral ne précise pas la modification exacte de la MIT classique (elle peut introduire des restrictions sur certains usages commerciaux spécifiques selon les versions de la licence chez Mistral), mais le modèle est pleinement déployable sur infrastructure propre — ce qui reste impossible avec Claude Sonnet 4.6.

Prix divisé par deux versus Sonnet 4.6

C’est le levier qui change le plus pour les PME en volume. Sur 100 millions de tokens d’input et 30 millions de tokens d’output par mois :

Sonnet 4.6 : 100 × $3 + 30 × $15 = 750 USD/mois
Medium 3.5 : 100 × $1,5 + 30 × $7,5 = 375 USD/mois

L’écart annuel à volume soutenu approche 4 500 USD. Pour une PME qui plafonne le budget Claude à 100-150 €/mois côté infrastructure IA, ce facteur 2 permet de doubler le volume sans modifier la ligne budgétaire.

Claude Sonnet 4.6 : les avantages qui justifient le surcoût

Sonnet 4.6, annoncé le 17 février 2026 par Anthropic, conserve plusieurs avantages structurants.

Contexte 1M token en beta

C’est la rupture majeure de Sonnet 4.6 versus l’écosystème open. La fenêtre de contexte de 1 000 000 tokens (en beta au moment de la rédaction) permet des workflows agentic sur de très grandes bases de code, des audits sur l’intégralité d’un repo, et des analyses cross-document que les 256k de Medium 3.5 ne peuvent pas tenir d’un seul prompt.

Optimisations coût intégrées

Anthropic communique sur le pricing identique à Sonnet 4.5 ($3/$15) avec jusqu’à 90 % d’économies via prompt caching et 50 % via batch processing. Sur un workload qui peut exploiter ces deux mécanismes, le prix effectif tombe à ~$0,30/M input — soit en dessous de Medium 3.5 brut. Le différentiel coût dépend donc fortement de la nature du workload.

Performance code maximale

Sur SWE-bench Verified, 80,2 % avec prompt modification versus 77,6 % pour Medium 3.5. C’est moins qu’on aurait pu craindre côté Sonnet (l’écart aurait pu être plus large), mais l’avantage existe. Sur des bugs de production où les 2-3 points comptent, Sonnet reste préférable.

Trois décisions d’achat pour mai 2026

L’arbitrage technique se résume à trois questions opérationnelles.

Décision 1 — Volume tokens/mois

< 5 M tokens/mois : différence de coût marginale, choisir la qualité maximale = Sonnet 4.6.
5 à 100 M tokens/mois : économie significative avec Medium 3.5 si prompt caching/batch ne s’applique pas au workload. Tester les deux côte à côte.
> 100 M tokens/mois : envisager l’auto-hébergement Medium 3.5 (cf. décision 3) ou rester sur Medium 3.5 hosted.

Décision 2 — Souveraineté et confidentialité

Données stratégiques en France/UE, refus de transit hors UE : Medium 3.5 hosted Mistral (Paris) ou auto-hébergement sur cloud souverain (OVHcloud, Scaleway). Sonnet 4.6 reste possible via AWS Bedrock Europe, mais avec attestation Anthropic.
Pas de contrainte souveraineté forte : choix indifférent, autres critères priment.

Décision 3 — Auto-hébergement

Le seuil de rentabilité de l’auto-hébergement Medium 3.5 sur 4 GPU :

Coût infrastructure ≈ 10-18 k€/mois sur cloud GPU (4 × H100 ou A100 80GB selon provider).
Coût API hosted Medium 3.5 pour le même volume agentic : 200-500 €/mois (100 M tokens/mois).
Auto-host rentable au-delà de ~5-10 M tokens/jour soutenus, en supposant >50 % de taux d’occupation GPU. En dessous, l’API hosted reste moins chère malgré les marges du fournisseur.

Pour une PME qui démarre, le bon réflexe reste API hosted des deux côtés : tester Sonnet 4.6 et Medium 3.5 sur les mêmes prompts en parallèle pendant 2-3 semaines, mesurer qualité réelle et coût, décider sur les chiffres mesurés et non sur les benchmarks théoriques.

Quand Medium 3.5 bat vraiment Sonnet 4.6

Trois scénarios où l’arbitrage penche clairement côté Mistral :

Workload sensible à la latence avec auto-hébergement — l’auto-host Mistral en France ou Europe bat les temps de transit Anthropic via Bedrock, surtout sur des prompts courts (moins de 2k tokens).
PME francophone en RAG fermé — Medium 3.5 est francophone d’origine (entraînement enrichi sur corpus européens), tandis que Sonnet 4.6 reste anglophone-first. Pour des prompts FR purs, Medium 3.5 a souvent l’ascendant qualitatif sur la nuance lexicale (terminologie métier).
Contraintes AI Act PME — la sortie GPAI Code of Practice et les obligations transparence du 2 août 2026 sont plus simples à documenter avec un modèle open weights dont on contrôle la chaîne de traitement. Cf. notre dossier AI Act PME obligations 2026 pour le détail.

Quand Sonnet 4.6 reste le bon choix

À l’inverse, trois cas où l’écart prix se justifie :

Workload contexte long — refactoring grandes bases, audit, summarization multi-documents. Le 1M token de Sonnet est inégalé sur l’écosystème dense actuel.
Prompt caching aggressif — si le workload réutilise des contextes système identiques (prompt système long, RAG avec embeddings stables), les 90 % d’économies caching font tomber le coût effectif Sonnet en dessous de Medium 3.5.
Computer use et tool use avancé — Sonnet 4.6 conserve l’écosystème Anthropic SDK le plus mature côté agents (Three-agent harness, Computer use, Files API). Cf. notre dossier three-agent harness Anthropic.

Sur le marché plus large : Mistral 3 et la gamme complète

Mistral a annoncé en parallèle la gamme Mistral 3 complète, sous licence Apache 2.0 : Ministral 3 en 3B/8B/14B, Mistral Large 3 en 41B actifs / 675B total (mixture-of-experts), avec support multilingue 40+ langues natives. Ministral 14B atteint 85 % sur AIME ‘25 — performance significative pour 14B de paramètres seulement. Pour une PME qui veut un modèle local sur laptop ou edge, Ministral 14B mérite d’être testé en parallèle des comparatifs cloud Medium 3.5/Sonnet 4.6.

Pour l’angle Mistral Large 3 spécifiquement, notre comparatif Large 3 vs Sonnet 4.6 couvre le segment hauts paramètres. Pour Mistral Small 4 MoE, le dossier dédié traite le segment léger.

FAQ

Mistral Medium 3.5 est-il vraiment open weights ou seulement open API ?

Open weights, mais sous licence MIT modifiée. La fiche officielle docs.mistral.ai indique « Releases as open weights » et « Modified MIT license ». Concrètement : les poids du modèle 128B sont téléchargeables sur Hugging Face, et l’auto-hébergement est documenté dès 4 GPU. La modification de la MIT classique introduit des restrictions sur certains usages commerciaux spécifiques (à vérifier dans la licence en vigueur au moment du déploiement), mais le modèle peut tourner sur infrastructure propre — ce que ne permet pas Claude Sonnet 4.6, accessible uniquement via API Anthropic.

Quel modèle choisir pour du code en PME francophone en mai 2026 ?

L’écart SWE-bench Verified est de 2,6 points (Sonnet 4.6 à 80,2 % avec prompt modification, Medium 3.5 à 77,6 %). Cet écart est plus que compensé pour les workloads coût-sensibles par la division par 2 du prix API. Pour un usage interne PME avec volume modéré (10-100k tokens/jour), choisir Sonnet 4.6 pour la qualité maximale ; pour un volume élevé (>1M tokens/jour) ou des besoins de souveraineté/auto-hébergement, Medium 3.5 devient préférable. La latence et le contexte (256k vs 1M beta) sont les deux autres variables d’arbitrage.

Combien coûte vraiment l’auto-hébergement de Mistral Medium 3.5 sur 4 GPU ?

Mistral indique le seuil minimal à 4 GPU pour l’inference, sans préciser le modèle. Sur 4 H100 ou 4 A100 80GB, l’infrastructure tourne entre 10 000 € et 18 000 € de location mensuelle sur AWS/Azure/OVHcloud aux tarifs 2026 — à comparer aux frais API d’un workload typique PME. L’auto-host devient rentable au-delà de ~5-10M tokens/jour de volume soutenu, en supposant un taux d’utilisation GPU >50 % — sinon l’API hosted reste moins chère.