Mistral Small 4 (mars 2026) : le MoE Apache 2.0 qui replace 3 modèles pour PME

Mistral AI a publié le 16 mars 2026 son nouveau modèle généraliste open-source : Small 4. Le saut technique n’est pas dans la taille mais dans la consolidation : pour la première fois, un seul modèle Mistral remplace trois modèles spécialisés que les équipes devaient orchestrer en parallèle. Pour une PME francophone qui hésite entre l’API Claude/OpenAI et un déploiement souverain, cette release change la donne — voici pourquoi, avec les chiffres officiels.

Architecture : MoE 119 B / 6 B actifs

Le ratio est l’élément clé : 119 milliards de paramètres totaux stockés, mais seulement 6 milliards calculés à chaque token grâce à la mixture of experts. Le coût d’inférence reste donc dans la classe des modèles 6-8 B denses, pour une qualité qui s’approche de modèles 30-70 B classiques.

Paramètre	Mistral Small 4
Paramètres totaux	119 milliards
Paramètres actifs / token	6 milliards (8 B avec embedding/output)
Architecture	Mixture of Experts (sparse)
Nombre d’experts	128
Experts actifs / token	4
Contexte	256 K tokens
Modalités	Texte + image (input)
Licence	Apache 2.0 (open weights commercial)

Le contexte de 256 K reste deux à quatre fois inférieur à GPT-5.5 (1,05 M) ou Claude Sonnet 4.6 (1 M), mais largement supérieur à ce que fournissent les modèles dense 8 B classiques (8 K à 32 K). Pour une PME, c’est suffisant pour la plupart des workflows RAG, l’analyse documentaire et le chat support multi-tour.

Trois modèles Mistral en un seul

C’est la nouveauté éditoriale forte de Small 4. Avant cette release, un développeur Mistral devait choisir entre :

Mistral Small pour l’instruct rapide
Magistral pour le raisonnement chain-of-thought
Pixtral pour la vision multimodale
Devstral pour le coding agentique

Désormais, Small 4 unifie ces 4 rôles dans un seul modèle. Le contrôle se fait via le paramètre reasoning_effort :

`reasoning_effort`	Comportement	Cas d’usage
`none`	Réponse rapide équivalente à Mistral Small 3.2	Chat support, classification, extraction
`high`	Raisonnement profond comparable à Magistral	Code complexe, analyse, problèmes math/logique

La conséquence opérationnelle pour une PME : un seul prompt template, un seul modèle déployé, un seul jeu de tests. La complexité d’orchestration multi-modèles disparaît. C’est la même promesse qu’OpenAI avec GPT-5.5 côté coût-élevé, mais ici à un facteur de prix radicalement différent.

Performance : 40 % plus rapide, 3x le débit

Mistral revendique :

−40 % de latence end-to-end (setup latency-optimized) vs Small 3
×3 de throughput (setup throughput-optimized) vs Small 3

Ces deux régimes ne sont pas cumulables — vous choisissez soit la latence basse, soit le débit élevé selon votre profil de charge. Pour un assistant interactif, on prendra la latence ; pour un batch de classification ou une re-écriture massive, le throughput.

Tarif API Mistral et arbitrage face à Claude Haiku 4.5

Le tarif Mistral Small 4 sur l’API officielle n’est pas publié sur la page tarification accessible publiquement (la page /pricing redirige sur les plans Free/Pro/Team/Enterprise sans grille tokens visible directement). Les tarifs observés sur OpenRouter et plateformes tierces convergent autour de :

Input : ≈ 0,15 $/M tokens
Output : ≈ 0,60 $/M tokens

À titre de comparaison rapide :

Modèle	Input ($/M)	Output ($/M)	Contexte
Mistral Small 4	~0,15	~0,60	256 K
Claude Haiku 4.5	1,00	5,00	200 K
Gemini 2.5 Flash	0,10	0,40	1 M
GPT-5.5 mini (équivalent)	non publié à fin avril 2026	—	—
Mistral Large 3	0,50	1,50	256 K

L’attractivité de Small 4 face à Haiku 4.5 saute aux yeux : 6 à 8x moins cher sur input et output, pour une qualité globalement comparable sur les tâches généralistes. Voir le comparatif Mistral Large 3 vs Claude Sonnet 4.6 pour la lecture haut de gamme.

L’argument souveraineté : Apache 2.0 + déploiement on-premise

C’est l’angle structurant pour une PME française ou européenne sous contrainte RGPD/AI Act. Apache 2.0 implique :

Téléchargement libre des poids (Hugging Face, GitHub).
Auto-hébergement sans coût de licence (un GPU H100 suffit pour servir Small 4 en production).
Pas de transit de données vers un fournisseur tiers — vos prompts ne quittent pas votre infra.
Fine-tuning autorisé pour spécialiser sur votre domaine métier sans approbation préalable.

Pour les PME santé, finance, services juridiques ou industrie, c’est un déblocage. Le comparatif self-hosted Llama 3 vs Claude API donne le cadre TCO d’un déploiement self-hosted ; Small 4 entre dans la même équation, avec l’avantage d’un MoE qui réduit le coût GPU effectif à charge équivalente.

Quand choisir Mistral Small 4 (et quand pas)

Profil PME	Recommandation
Chat support multi-langue, volume élevé	Mistral Small 4 API — coût imbattable
Workflow RGPD strict, données sensibles	Mistral Small 4 self-hosted sur GPU dédié
Vision OCR factures/contrats moyens (≤ 1500 px)	Mistral Small 4 (multimodal natif)
Vision OCR haute résolution (> 2000 px)	Claude Opus 4.7 (vision 2576 px)
Code agentique production	Small 4 `reasoning_effort=high` à benchmarker, sinon Sonnet 4.6 ou GPT-5.5
Workflow > 256 K tokens contexte	GPT-5.5 (1,05 M) ou Sonnet/Opus (1 M)
Fine-tuning domaine métier	Mistral Small 4 Apache 2.0

Limites à connaître avant de migrer

Pas de batch API natif comparable au batch OpenAI ou Anthropic. Pour des charges off-line massives, vérifier la roadmap Mistral.
256 K contexte, suffisant pour la plupart des cas, mais insuffisant pour les workflows multi-document very-long-form (codebase entière, contrat de 200 pages).
Écosystème d’outils plus jeune que celui d’OpenAI ou Anthropic : moins de plugins ready-to-use, moins de SDK communautaires éprouvés.
Performances reasoning_effort=high à benchmarker sur votre cas métier — les résultats publiés en agrégat ne se transposent pas mécaniquement à votre domaine.

FAQ

Mistral Small 4 est-il vraiment open-source pour un usage commercial ?

Oui. La licence Apache 2.0 autorise la copie, modification, redistribution et usage commercial sans royalty, à condition de conserver les notices de copyright. C’est la licence la plus permissive utilisée dans l’écosystème open-source IA, identique à celle de Llama 4 Scout/Maverick et préférable à la licence Llama community pour les PME UE qui veulent éviter les clauses de non-concurrence.

Quelle taille de GPU pour héberger Small 4 ?

Le modèle complet (119 B paramètres) nécessite ~240 Go de VRAM en FP16, soit typiquement 3 GPU H100 80 Go ou un H200. Avec quantization int8/int4, on peut descendre sur un seul H100 80 Go. Pour de la charge légère (tests, dev), des optimisations (vLLM, TensorRT-LLM) avec quantization permettent un déploiement sur un seul GPU. La sparsité MoE réduit la compute active mais pas la mémoire statique requise.

Le toggle `reasoning_effort=high` est-il facturé plus cher ?

Sur l’API Mistral hébergée, le tarif est publié au token sortant — donc plus la chain-of-thought est longue (mode high), plus la facture monte mécaniquement. C’est la même mécanique qu’OpenAI o-series et Anthropic extended thinking : payer l’output quel qu’il soit. En self-hosted, c’est uniquement votre temps GPU.

Small 4 supporte-t-il le français aussi bien que GPT-5.5 ou Claude ?

Mistral est historiquement entraîné avec une part de corpus francophone supérieure à la moyenne. Les benchmarks tiers montrent une parité voire un avantage de Mistral sur certaines tâches en français pur (rédaction, dialogue conversationnel). Sur des tâches techniques (code, raisonnement formel) en anglais, GPT-5.5 et Sonnet 4.6 conservent une avance mesurable.

Peut-on fine-tuner Mistral Small 4 sur un cas métier ?

Oui, sans restriction de licence. La taille du modèle (119 B) impose un budget GPU significatif pour un fine-tuning full ; les PME passeront en pratique par des techniques d’adaptation paramètre-efficaces (LoRA, QLoRA) qui réduisent le coût à quelques centaines de dollars. La doc Mistral et la communauté Hugging Face donnent les recettes de référence.