Évaluer un LLM pour une tâche métier : 6 critères concrets

Un leaderboard bien classé ne suffit pas. Un LLM qui domine MMLU peut échouer sur vos contrats en anglais juridique, vos tickets SAV en argot métier ou vos extractions de bons de commande mal scannés. Ce guide pose six critères mesurables — et la méthode pour les évaluer en une heure avant de signer un contrat annuel.

Pour une vue d’ensemble de notre approche sur les benchmarks IA, consultez notre méthodologie éditoriale.

flowchart TD
    accTitle: Arbre de décision — 6 critères pour évaluer un LLM pour une tâche métier
    A[Tâche métier identifiée] --> B[1. Qualité sur tâche réelle]
    B --> C[2. Coût total au volume]
    C --> D[3. Latence p50/p95]
    D --> E[4. Hallucination rate]
    E --> F[5. Conformité RGPD]
    F --> G[6. Verrou fournisseur]
    G --> H{Score global suffisant?}
    H -->|Oui| I[LLM retenu pour production]
    H -->|Non| J[LLM éliminé ou re-paramétré]

Critère 1 — Qualité sur la tâche réelle

La confusion la plus courante : prendre le rang Chatbot Arena comme proxy de qualité métier.

Ce que vous devez faire : construire un eval set de 10 prompts représentatifs de votre tâche réelle. Chaque prompt doit avoir une golden answer et un rubric de scoring (0-2 par dimension : précision, format, complétude).

Méthode en 1h :

Identifiez 10 cas réels tirés de votre historique (tickets, contrats, requêtes API).
Rédigez la golden answer attendue pour chacun.
Faites tourner les modèles candidats avec le même system prompt.
Scorez chaque sortie sur votre rubric.

Un score > 1,5/2 sur 8 prompts sur 10 constitue le seuil minimal pour envisager la production.

Critère 2 — Coût total au volume mensuel projeté

Le coût affiché par million de tokens ne dit rien sans volume réel. La formule de base :

Coût mensuel = (requêtes/mois) × (tokens_input_moyen + tokens_output_moyen) × tarif_MTok

Pour 50 000 requêtes/mois avec 400 tokens d’input et 200 tokens d’output en moyenne :

Comparatif coût estimé — 50k requêtes/mois (400 tokens input, 200 tokens output). Tarifs vérifiés avril 2026.
Modèle	Input ($/MTok)	Output ($/MTok)	Coût mensuel estimé
Claude Sonnet 4.6	3,00 $	15,00 $	~210 $
GPT-4.5	75,00 $*	150,00 $*	~4 500 $*
Gemini 2.5 Pro	1,25 $	10,00 $	~125 $

*GPT-4.5 : tarif issu de l’annonce de lancement (fév. 2025) — à vérifier sur openai.com/pricing. Claude Sonnet 4.6 et Gemini 2.5 Pro vérifiés en avril 2026 sur les pages officielles.

Critère 3 — Latence p50/p95 sous charge

Une latence médiane de 1 seconde peut monter à 8 secondes au p95 sous charge. Pour un cas d’usage temps-réel (agent conversationnel, copilote métier), c’est rédhibitoire.

Ce que vous mesurez :

p50 : la moitié de vos requêtes passent sous ce seuil.
p95 : seuil dépassé par 5 % des requêtes — le cas dégradé réel.

Méthode en 1h : envoyez 100 requêtes en parallèle (10 workers × 10 requêtes) via un script Python ou curl. Calculez les percentiles sur les temps de réponse observés.

Pour les tâches batch (classification nocturne, résumé de documents), la latence p95 n’est pas discriminante. Pour une UI interactive, un p95 > 3 s doit alerter.

Critère 4 — Hallucination rate sur le domaine métier

Les benchmarks généraux ne testent pas votre domaine. Un LLM peut avoir un excellent score global et inventer des références légales ou des spécifications produit absentes de son contexte.

Méthode en 1h :

Préparez 10 questions dont vous connaissez la réponse exacte dans votre domaine.
Incluez 3-5 questions « pièges » (données absentes du contexte fourni).
Pour les pièges : un bon modèle répond « non mentionné dans le document ».
Scorez 0 pour toute affirmation inventée, 1 pour la reconnaissance du manque.

SWE-bench mesure la résolution d’issues GitHub réelles sur 12 dépôts Python publics — un proxy pertinent pour le code, sans équivalent sur données métier propriétaires.

Un taux de hallucination > 20 % sur votre domaine est un veto, indépendamment de tout autre critère.

Critère 5 — Conformité RGPD et data residency

Ce critère est souvent traité en dernier. Il devrait être le premier filtre.

Questions à poser avant tout PoC :

Vos données d’inférence sont-elles utilisées pour réentraîner le modèle ? (opt-out disponible ?)
Où sont stockés les logs de requêtes, et combien de temps ?
Le fournisseur peut-il signer un DPA (Data Processing Agreement, art. 28 RGPD) ?
Quelle région d’hébergement — UE, États-Unis, autre ?

Les trois fournisseurs principaux proposent des options de résidence régionale via leurs plateformes cloud : AWS Bedrock (endpoints régionaux EU depuis Claude Sonnet 4.5) et Google Vertex AI (multi-region et regional EU). Vérifiez le DPA spécifique à chaque offre et les SLA associés.

Pour les données sensibles (santé, finance, RH), la résidence UE n’est pas optionnelle — c’est une exigence légale.

Critère 6 — Verrou fournisseur

Le lock-in n’est pas seulement contractuel, il est aussi technique.

Formes de lock-in à évaluer :

Format de prompt : les system prompts optimisés pour Claude ne fonctionnent pas à l’identique sur GPT-4 ou Gemini — migrations coûteuses.
Fonctionnalités propriétaires : extended thinking, tool use natif — certaines n’ont pas d’équivalent direct.
Fine-tuning : si vous avez fine-tuné chez un fournisseur, migrer exige de re-finetuner (coût + délai).
Contrats pluriannuels avec pénalités : lisez les clauses de résiliation.

Stratégie recommandée : abstraire l’accès au LLM via une couche middleware (LiteLLM, OpenRouter) dès le premier prototype. Maintenez un fallback opérationnel sur un second fournisseur.

Template eval set — 10 prompts, rubric scoring

Structure minimale d’un eval set métier :

## Eval Set — [Votre cas d'usage]

### Prompt 1 (cas nominal)
**Input** : [Texte brut d'entrée]
**Golden answer** : [Réponse attendue]
**Rubric** :
- Précision (0-2) : les faits clés sont-ils corrects ?
- Format (0-2) : la structure demandée est-elle respectée ?
- Complétude (0-2) : aucun élément essentiel manquant ?

### Prompt 3 (piège)
**Input** : [Question dont la réponse n'est PAS dans le contexte]
**Golden answer** : « Information absente du document »
**Rubric** : 2 si refus factuel propre, 0 si hallucination

Incluez au moins 3 cas nominaux, 2 cas limites, 3 ambiguïtés et 2 pièges. Un eval set de 10 prompts prend 30 minutes à constituer sur un domaine que vous maîtrisez.

Vos données battent les leaderboards

Les leaderboards publics mesurent un modèle général face à une tâche générale. Votre production n’est ni générale ni comparable aux autres utilisateurs.

HELM (Holistic Evaluation of Language Models, Stanford CRFM) couvre des dizaines de scénarios standardisés — aucun ne ressemble à vos contrats fournisseurs en français. Un modèle classé 3e sur l’Arena peut surpasser le n°1 sur votre cas d’usage spécifique. Pour suivre l’évolution des performances et des prix modèle par modèle, consultez notre comparatif des coûts des API IA.

Six critères, une heure d’évaluation par critère, un eval set de 10 prompts : c’est la méthode minimale pour ne pas se faire piéger par un leaderboard marketing.