IA-BRIEF TERMINAL · ÉDITION N°137
DIM 17 MAI 2026 11:44 UTC+1

Comparatif

Mistral Small 4 (mars 2026) : le MoE Apache 2.0 qui replace 3 modèles pour PME

Publié
MAJ
Par Stefan
Lecture 9 min

Mistral AI a publié le 16 mars 2026 son nouveau modèle généraliste open-source : Small 4. Le saut technique n’est pas dans la taille mais dans la consolidation : pour la première fois, un seul modèle Mistral remplace trois modèles spécialisés que les équipes devaient orchestrer en parallèle. Pour une PME francophone qui hésite entre l’API Claude/OpenAI et un déploiement souverain, cette release change la donne — voici pourquoi, avec les chiffres officiels.

Architecture : MoE 119 B / 6 B actifs

Le ratio est l’élément clé : 119 milliards de paramètres totaux stockés, mais seulement 6 milliards calculés à chaque token grâce à la mixture of experts. Le coût d’inférence reste donc dans la classe des modèles 6-8 B denses, pour une qualité qui s’approche de modèles 30-70 B classiques.

ParamètreMistral Small 4
Paramètres totaux119 milliards
Paramètres actifs / token6 milliards (8 B avec embedding/output)
ArchitectureMixture of Experts (sparse)
Nombre d’experts128
Experts actifs / token4
Contexte256 K tokens
ModalitésTexte + image (input)
LicenceApache 2.0 (open weights commercial)

Le contexte de 256 K reste deux à quatre fois inférieur à GPT-5.5 (1,05 M) ou Claude Sonnet 4.6 (1 M), mais largement supérieur à ce que fournissent les modèles dense 8 B classiques (8 K à 32 K). Pour une PME, c’est suffisant pour la plupart des workflows RAG, l’analyse documentaire et le chat support multi-tour.

Trois modèles Mistral en un seul

C’est la nouveauté éditoriale forte de Small 4. Avant cette release, un développeur Mistral devait choisir entre :

  • Mistral Small pour l’instruct rapide
  • Magistral pour le raisonnement chain-of-thought
  • Pixtral pour la vision multimodale
  • Devstral pour le coding agentique

Désormais, Small 4 unifie ces 4 rôles dans un seul modèle. Le contrôle se fait via le paramètre reasoning_effort :

reasoning_effortComportementCas d’usage
noneRéponse rapide équivalente à Mistral Small 3.2Chat support, classification, extraction
highRaisonnement profond comparable à MagistralCode complexe, analyse, problèmes math/logique

La conséquence opérationnelle pour une PME : un seul prompt template, un seul modèle déployé, un seul jeu de tests. La complexité d’orchestration multi-modèles disparaît. C’est la même promesse qu’OpenAI avec GPT-5.5 côté coût-élevé, mais ici à un facteur de prix radicalement différent.

Performance : 40 % plus rapide, 3x le débit

Mistral revendique :

  • −40 % de latence end-to-end (setup latency-optimized) vs Small 3
  • ×3 de throughput (setup throughput-optimized) vs Small 3

Ces deux régimes ne sont pas cumulables — vous choisissez soit la latence basse, soit le débit élevé selon votre profil de charge. Pour un assistant interactif, on prendra la latence ; pour un batch de classification ou une re-écriture massive, le throughput.

Tarif API Mistral et arbitrage face à Claude Haiku 4.5

Le tarif Mistral Small 4 sur l’API officielle n’est pas publié sur la page tarification accessible publiquement (la page /pricing redirige sur les plans Free/Pro/Team/Enterprise sans grille tokens visible directement). Les tarifs observés sur OpenRouter et plateformes tierces convergent autour de :

  • Input : ≈ 0,15 $/M tokens
  • Output : ≈ 0,60 $/M tokens

À titre de comparaison rapide :

ModèleInput ($/M)Output ($/M)Contexte
Mistral Small 4~0,15~0,60256 K
Claude Haiku 4.51,005,00200 K
Gemini 2.5 Flash0,100,401 M
GPT-5.5 mini (équivalent)non publié à fin avril 2026
Mistral Large 30,501,50256 K

L’attractivité de Small 4 face à Haiku 4.5 saute aux yeux : 6 à 8x moins cher sur input et output, pour une qualité globalement comparable sur les tâches généralistes. Voir le comparatif Mistral Large 3 vs Claude Sonnet 4.6 pour la lecture haut de gamme.

L’argument souveraineté : Apache 2.0 + déploiement on-premise

C’est l’angle structurant pour une PME française ou européenne sous contrainte RGPD/AI Act. Apache 2.0 implique :

  1. Téléchargement libre des poids (Hugging Face, GitHub).
  2. Auto-hébergement sans coût de licence (un GPU H100 suffit pour servir Small 4 en production).
  3. Pas de transit de données vers un fournisseur tiers — vos prompts ne quittent pas votre infra.
  4. Fine-tuning autorisé pour spécialiser sur votre domaine métier sans approbation préalable.

Pour les PME santé, finance, services juridiques ou industrie, c’est un déblocage. Le comparatif self-hosted Llama 3 vs Claude API donne le cadre TCO d’un déploiement self-hosted ; Small 4 entre dans la même équation, avec l’avantage d’un MoE qui réduit le coût GPU effectif à charge équivalente.

Quand choisir Mistral Small 4 (et quand pas)

Profil PMERecommandation
Chat support multi-langue, volume élevéMistral Small 4 API — coût imbattable
Workflow RGPD strict, données sensiblesMistral Small 4 self-hosted sur GPU dédié
Vision OCR factures/contrats moyens (≤ 1500 px)Mistral Small 4 (multimodal natif)
Vision OCR haute résolution (> 2000 px)Claude Opus 4.7 (vision 2576 px)
Code agentique productionSmall 4 reasoning_effort=high à benchmarker, sinon Sonnet 4.6 ou GPT-5.5
Workflow > 256 K tokens contexteGPT-5.5 (1,05 M) ou Sonnet/Opus (1 M)
Fine-tuning domaine métierMistral Small 4 Apache 2.0

Limites à connaître avant de migrer

  1. Pas de batch API natif comparable au batch OpenAI ou Anthropic. Pour des charges off-line massives, vérifier la roadmap Mistral.
  2. 256 K contexte, suffisant pour la plupart des cas, mais insuffisant pour les workflows multi-document very-long-form (codebase entière, contrat de 200 pages).
  3. Écosystème d’outils plus jeune que celui d’OpenAI ou Anthropic : moins de plugins ready-to-use, moins de SDK communautaires éprouvés.
  4. Performances reasoning_effort=high à benchmarker sur votre cas métier — les résultats publiés en agrégat ne se transposent pas mécaniquement à votre domaine.

FAQ

Mistral Small 4 est-il vraiment open-source pour un usage commercial ?

Oui. La licence Apache 2.0 autorise la copie, modification, redistribution et usage commercial sans royalty, à condition de conserver les notices de copyright. C’est la licence la plus permissive utilisée dans l’écosystème open-source IA, identique à celle de Llama 4 Scout/Maverick et préférable à la licence Llama community pour les PME UE qui veulent éviter les clauses de non-concurrence.

Quelle taille de GPU pour héberger Small 4 ?

Le modèle complet (119 B paramètres) nécessite ~240 Go de VRAM en FP16, soit typiquement 3 GPU H100 80 Go ou un H200. Avec quantization int8/int4, on peut descendre sur un seul H100 80 Go. Pour de la charge légère (tests, dev), des optimisations (vLLM, TensorRT-LLM) avec quantization permettent un déploiement sur un seul GPU. La sparsité MoE réduit la compute active mais pas la mémoire statique requise.

Le toggle reasoning_effort=high est-il facturé plus cher ?

Sur l’API Mistral hébergée, le tarif est publié au token sortant — donc plus la chain-of-thought est longue (mode high), plus la facture monte mécaniquement. C’est la même mécanique qu’OpenAI o-series et Anthropic extended thinking : payer l’output quel qu’il soit. En self-hosted, c’est uniquement votre temps GPU.

Small 4 supporte-t-il le français aussi bien que GPT-5.5 ou Claude ?

Mistral est historiquement entraîné avec une part de corpus francophone supérieure à la moyenne. Les benchmarks tiers montrent une parité voire un avantage de Mistral sur certaines tâches en français pur (rédaction, dialogue conversationnel). Sur des tâches techniques (code, raisonnement formel) en anglais, GPT-5.5 et Sonnet 4.6 conservent une avance mesurable.

Peut-on fine-tuner Mistral Small 4 sur un cas métier ?

Oui, sans restriction de licence. La taille du modèle (119 B) impose un budget GPU significatif pour un fine-tuning full ; les PME passeront en pratique par des techniques d’adaptation paramètre-efficaces (LoRA, QLoRA) qui réduisent le coût à quelques centaines de dollars. La doc Mistral et la communauté Hugging Face donnent les recettes de référence.

Sources primaires