Comparatif
Mistral Small 4 (mars 2026) : le MoE Apache 2.0 qui replace 3 modèles pour PME
Mistral AI a publié le 16 mars 2026 son nouveau modèle généraliste open-source : Small 4. Le saut technique n’est pas dans la taille mais dans la consolidation : pour la première fois, un seul modèle Mistral remplace trois modèles spécialisés que les équipes devaient orchestrer en parallèle. Pour une PME francophone qui hésite entre l’API Claude/OpenAI et un déploiement souverain, cette release change la donne — voici pourquoi, avec les chiffres officiels.
Architecture : MoE 119 B / 6 B actifs
Le ratio est l’élément clé : 119 milliards de paramètres totaux stockés, mais seulement 6 milliards calculés à chaque token grâce à la mixture of experts. Le coût d’inférence reste donc dans la classe des modèles 6-8 B denses, pour une qualité qui s’approche de modèles 30-70 B classiques.
| Paramètre | Mistral Small 4 |
|---|---|
| Paramètres totaux | 119 milliards |
| Paramètres actifs / token | 6 milliards (8 B avec embedding/output) |
| Architecture | Mixture of Experts (sparse) |
| Nombre d’experts | 128 |
| Experts actifs / token | 4 |
| Contexte | 256 K tokens |
| Modalités | Texte + image (input) |
| Licence | Apache 2.0 (open weights commercial) |
Le contexte de 256 K reste deux à quatre fois inférieur à GPT-5.5 (1,05 M) ou Claude Sonnet 4.6 (1 M), mais largement supérieur à ce que fournissent les modèles dense 8 B classiques (8 K à 32 K). Pour une PME, c’est suffisant pour la plupart des workflows RAG, l’analyse documentaire et le chat support multi-tour.
Trois modèles Mistral en un seul
C’est la nouveauté éditoriale forte de Small 4. Avant cette release, un développeur Mistral devait choisir entre :
- Mistral Small pour l’instruct rapide
- Magistral pour le raisonnement chain-of-thought
- Pixtral pour la vision multimodale
- Devstral pour le coding agentique
Désormais, Small 4 unifie ces 4 rôles dans un seul modèle. Le contrôle se fait via le paramètre reasoning_effort :
reasoning_effort | Comportement | Cas d’usage |
|---|---|---|
none | Réponse rapide équivalente à Mistral Small 3.2 | Chat support, classification, extraction |
high | Raisonnement profond comparable à Magistral | Code complexe, analyse, problèmes math/logique |
La conséquence opérationnelle pour une PME : un seul prompt template, un seul modèle déployé, un seul jeu de tests. La complexité d’orchestration multi-modèles disparaît. C’est la même promesse qu’OpenAI avec GPT-5.5 côté coût-élevé, mais ici à un facteur de prix radicalement différent.
Performance : 40 % plus rapide, 3x le débit
Mistral revendique :
- −40 % de latence end-to-end (setup latency-optimized) vs Small 3
- ×3 de throughput (setup throughput-optimized) vs Small 3
Ces deux régimes ne sont pas cumulables — vous choisissez soit la latence basse, soit le débit élevé selon votre profil de charge. Pour un assistant interactif, on prendra la latence ; pour un batch de classification ou une re-écriture massive, le throughput.
Tarif API Mistral et arbitrage face à Claude Haiku 4.5
Le tarif Mistral Small 4 sur l’API officielle n’est pas publié sur la page tarification accessible publiquement (la page /pricing redirige sur les plans Free/Pro/Team/Enterprise sans grille tokens visible directement). Les tarifs observés sur OpenRouter et plateformes tierces convergent autour de :
- Input : ≈ 0,15 $/M tokens
- Output : ≈ 0,60 $/M tokens
À titre de comparaison rapide :
| Modèle | Input ($/M) | Output ($/M) | Contexte |
|---|---|---|---|
| Mistral Small 4 | ~0,15 | ~0,60 | 256 K |
| Claude Haiku 4.5 | 1,00 | 5,00 | 200 K |
| Gemini 2.5 Flash | 0,10 | 0,40 | 1 M |
| GPT-5.5 mini (équivalent) | non publié à fin avril 2026 | — | — |
| Mistral Large 3 | 0,50 | 1,50 | 256 K |
L’attractivité de Small 4 face à Haiku 4.5 saute aux yeux : 6 à 8x moins cher sur input et output, pour une qualité globalement comparable sur les tâches généralistes. Voir le comparatif Mistral Large 3 vs Claude Sonnet 4.6 pour la lecture haut de gamme.
L’argument souveraineté : Apache 2.0 + déploiement on-premise
C’est l’angle structurant pour une PME française ou européenne sous contrainte RGPD/AI Act. Apache 2.0 implique :
- Téléchargement libre des poids (Hugging Face, GitHub).
- Auto-hébergement sans coût de licence (un GPU H100 suffit pour servir Small 4 en production).
- Pas de transit de données vers un fournisseur tiers — vos prompts ne quittent pas votre infra.
- Fine-tuning autorisé pour spécialiser sur votre domaine métier sans approbation préalable.
Pour les PME santé, finance, services juridiques ou industrie, c’est un déblocage. Le comparatif self-hosted Llama 3 vs Claude API donne le cadre TCO d’un déploiement self-hosted ; Small 4 entre dans la même équation, avec l’avantage d’un MoE qui réduit le coût GPU effectif à charge équivalente.
Quand choisir Mistral Small 4 (et quand pas)
| Profil PME | Recommandation |
|---|---|
| Chat support multi-langue, volume élevé | Mistral Small 4 API — coût imbattable |
| Workflow RGPD strict, données sensibles | Mistral Small 4 self-hosted sur GPU dédié |
| Vision OCR factures/contrats moyens (≤ 1500 px) | Mistral Small 4 (multimodal natif) |
| Vision OCR haute résolution (> 2000 px) | Claude Opus 4.7 (vision 2576 px) |
| Code agentique production | Small 4 reasoning_effort=high à benchmarker, sinon Sonnet 4.6 ou GPT-5.5 |
| Workflow > 256 K tokens contexte | GPT-5.5 (1,05 M) ou Sonnet/Opus (1 M) |
| Fine-tuning domaine métier | Mistral Small 4 Apache 2.0 |
Limites à connaître avant de migrer
- Pas de batch API natif comparable au batch OpenAI ou Anthropic. Pour des charges off-line massives, vérifier la roadmap Mistral.
- 256 K contexte, suffisant pour la plupart des cas, mais insuffisant pour les workflows multi-document very-long-form (codebase entière, contrat de 200 pages).
- Écosystème d’outils plus jeune que celui d’OpenAI ou Anthropic : moins de plugins ready-to-use, moins de SDK communautaires éprouvés.
- Performances
reasoning_effort=highà benchmarker sur votre cas métier — les résultats publiés en agrégat ne se transposent pas mécaniquement à votre domaine.
FAQ
Mistral Small 4 est-il vraiment open-source pour un usage commercial ?
Oui. La licence Apache 2.0 autorise la copie, modification, redistribution et usage commercial sans royalty, à condition de conserver les notices de copyright. C’est la licence la plus permissive utilisée dans l’écosystème open-source IA, identique à celle de Llama 4 Scout/Maverick et préférable à la licence Llama community pour les PME UE qui veulent éviter les clauses de non-concurrence.
Quelle taille de GPU pour héberger Small 4 ?
Le modèle complet (119 B paramètres) nécessite ~240 Go de VRAM en FP16, soit typiquement 3 GPU H100 80 Go ou un H200. Avec quantization int8/int4, on peut descendre sur un seul H100 80 Go. Pour de la charge légère (tests, dev), des optimisations (vLLM, TensorRT-LLM) avec quantization permettent un déploiement sur un seul GPU. La sparsité MoE réduit la compute active mais pas la mémoire statique requise.
Le toggle reasoning_effort=high est-il facturé plus cher ?
Sur l’API Mistral hébergée, le tarif est publié au token sortant — donc plus la chain-of-thought est longue (mode high), plus la facture monte mécaniquement. C’est la même mécanique qu’OpenAI o-series et Anthropic extended thinking : payer l’output quel qu’il soit. En self-hosted, c’est uniquement votre temps GPU.
Small 4 supporte-t-il le français aussi bien que GPT-5.5 ou Claude ?
Mistral est historiquement entraîné avec une part de corpus francophone supérieure à la moyenne. Les benchmarks tiers montrent une parité voire un avantage de Mistral sur certaines tâches en français pur (rédaction, dialogue conversationnel). Sur des tâches techniques (code, raisonnement formel) en anglais, GPT-5.5 et Sonnet 4.6 conservent une avance mesurable.
Peut-on fine-tuner Mistral Small 4 sur un cas métier ?
Oui, sans restriction de licence. La taille du modèle (119 B) impose un budget GPU significatif pour un fine-tuning full ; les PME passeront en pratique par des techniques d’adaptation paramètre-efficaces (LoRA, QLoRA) qui réduisent le coût à quelques centaines de dollars. La doc Mistral et la communauté Hugging Face donnent les recettes de référence.