Extraire factures, contrats avec Claude multimodal 2026 : guide PME

Q: Claude lit-il les PDF scannés ou seulement les PDF natifs ?

Les deux. Claude convertit chaque page en image (vision) ET en extrait le texte. Pour un PDF natif texte (généré par Word ou InDesign), l'extraction text est précise. Pour un PDF scanné (image de page), seule la vision intervient et l'OCR est calibré sur Sonnet 4.6 et Opus 4.7. Qualité comparable à AWS Textract sur la plupart des factures et devis modernes, sensiblement meilleure sur les contrats complexes.

Q: Quelle est la limite de taille et de pages d'un PDF en 2026 ?

Anthropic plafonne à 32 MB par requête et 600 pages pour les modèles à contexte 1M (Sonnet 4.6, Opus 4.7). Pour Haiku 4.5 (contexte 200k), la limite descend à 100 pages. Les deux limites sont sur la requête entière (PDF + autres contenus). Pour les fichiers plus gros, splitter le doc en sections et utiliser la Files API pour éviter le base64 lourd.

Q: Combien coûte l'extraction d'une facture de 2 pages en 2026 ?

Sur Claude Sonnet 4.6 (3 $ entrée / 15 $ sortie par M tokens) : une facture standard de 2 pages consomme ~4 000-6 000 tokens d'entrée (texte + image) et génère ~500 tokens JSON structuré. Coût total : entre 0,02 $ et 0,03 $ par facture. Avec prompt caching activé sur le system prompt et le schéma JSON, le coût descend à 0,005-0,010 $ par facture sur les volumes répétés.

Q: Doit-on combiner Files API et Structured Outputs ?

Oui pour la production. Files API évite l'overhead base64 et permet de réutiliser le même fichier sur plusieurs requêtes (extraction + résumé + traduction). Structured Outputs garantit une sortie JSON conforme à un schéma Pydantic ou JSON Schema. Le combo Files API + Batch API + Structured Outputs est le pattern de référence pour traiter 100-10 000 documents par lot la nuit.

Vision Claude Sonnet 4.6 et Opus 4.7 sur PDF natif (32 MB, 600 pages) : OCR + Structured Outputs JSON. Coût par doc, Files API, Batch API, cas concret PME.

L’extraction structurée de PDF est passée d’un projet R&D coûteux (AWS Textract, Tesseract custom, modèles maison) à une routine PME en 2026. Claude Sonnet 4.6 et Opus 4.7 lisent un PDF page par page en combinant vision et OCR natif, et la fonctionnalité Structured Outputs garantit que la sortie est un JSON conforme à un schéma. Pour une PME française qui traite 100-1 000 factures fournisseurs ou contrats par mois, le coût par document tombe sous 0,01 € avec prompt caching, contre 0,15-0,30 € chez les services cloud spécialisés. Voici le guide pratique : architecture, snippets Python officiels, calcul coût, et pièges en production.

Les 3 cas d’usage qui font basculer une PME en 2026

Trois cas dominent les retours d’expérience PME française mai 2026 :

Extraction de factures fournisseurs vers le logiciel comptable (Pennylane, Sage, Quickbooks). Champs cibles : N° facture, fournisseur, date, montant HT/TTC, échéance, IBAN, taux TVA. Volume typique PME : 50-500 factures/mois.
Comparaison automatique de devis fournisseurs : 3-5 devis pour le même besoin, extraction structurée pour comparer lignes, prix unitaires, conditions, délais. Volume typique : 20-50 procurations annuelles.
Audit de contrats commerciaux : extraction des clauses critiques (durée, renouvellement tacite, pénalités, exclusivité, juridiction). Pour un contrat de 30 pages, l’audit manuel prend 2-4 h ; avec Claude, 1 minute pour la passe d’extraction puis revue humaine ciblée sur les anomalies.

Ces trois cas partagent une même architecture technique : PDF en entrée → Claude multimodal → JSON structuré → workflow métier. Le différenciateur en 2026 vs alternatives : précision sur les PDFs natifs ET scannés, et le prix.

Comment Claude lit un PDF en 2026

D’après la documentation officielle PDF support d’Anthropic, le processus est une combinaison vision + texte :

« The system converts each page of the document into an image. The text from each page is extracted and provided alongside each page’s image. »

Concrètement, chaque page envoyée à Claude est traitée en deux représentations parallèles :

Image rendue : la page complète, qui permet à Claude de comprendre le layout, les tableaux, les graphiques, les logos, les signatures.
Texte extrait : la couche text du PDF (si elle existe) ou l’OCR (pour PDF scannés).

Cette double représentation permet à Claude de combiner la précision du texte (orthographe exacte des nombres et noms propres) avec la compréhension visuelle (reconnaître qu’un tableau est un tableau, qu’une case « TOTAL TTC » est l’élément final, qu’une signature est présente en bas du contrat).

Modèles compatibles et limites

PDF support est disponible sur tous les modèles Claude actifs en 2026 (Opus 4.7, Sonnet 4.6, Haiku 4.5) via l’API Claude, AWS Bedrock (avec mode Claude PDF Chat), Vertex AI et Microsoft Foundry.

Limite	Sonnet 4.6 / Opus 4.7 (1M context)	Haiku 4.5 (200k context)
Taille max requête	32 MB	32 MB
Pages max par requête	600	100
Format	PDF standard sans password / encryption	idem
Modes envoi	URL / Base64 / Files API	idem

Les deux limites s’appliquent au payload complet de la requête (PDF + autres contenus). Pour les fichiers très denses (petite police, tableaux complexes, beaucoup d’images embarquées), Anthropic note explicitement que le contexte peut être saturé avant d’atteindre la limite de pages — splitter en sections est alors la solution.

Snippet Python officiel : extraction d’une facture en JSON structuré

Le pattern de référence en production combine Files API (pour éviter l’overhead base64) et Structured Outputs (pour garantir un JSON conforme au schéma).

Étape 1 — Définir le schéma Pydantic

from pydantic import BaseModel
from typing import Literal

class FactureExtraite(BaseModel):
    numero_facture: str
    fournisseur_nom: str
    fournisseur_siret: str | None
    fournisseur_iban: str | None
    date_emission: str  # ISO 8601
    date_echeance: str  # ISO 8601
    montant_ht: float
    montant_tva: float
    montant_ttc: float
    taux_tva_principal: Literal["5.5", "10", "20"]
    devise: Literal["EUR", "USD", "GBP"]
    lignes: list[dict]  # libellé, quantité, prix unitaire HT

Étape 2 — Upload via Files API + extraction Structured Outputs

import anthropic

client = anthropic.Anthropic()

# Upload du PDF (réutilisable sur plusieurs requêtes)
with open("facture_acme_2026_05_001.pdf", "rb") as f:
    file_upload = client.beta.files.upload(
        file=("facture.pdf", f, "application/pdf")
    )

# Extraction structurée
response = client.beta.messages.parse(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    betas=["files-api-2025-04-14"],
    system="Tu es un assistant comptable. Extrais les données structurées de la facture fournie. Si un champ est absent, retourne null.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "document",
                    "source": {"type": "file", "file_id": file_upload.id},
                    "cache_control": {"type": "ephemeral"},
                },
                {"type": "text", "text": "Extrais les données comptables de cette facture."},
            ],
        }
    ],
    output_format=FactureExtraite,
)

facture: FactureExtraite = response.parsed_output
print(f"Fournisseur : {facture.fournisseur_nom}")
print(f"Montant TTC : {facture.montant_ttc} {facture.devise}")
print(f"Échéance    : {facture.date_echeance}")

Le cache_control: {"type": "ephemeral"} active le prompt caching sur le PDF (et sur le system prompt s’il est marqué aussi). Sur des extractions répétées du même PDF (pour différents schémas), l’économie atteint 90 % du coût d’entrée à partir du second appel.

Calcul coût par document en 2026

En reprenant le pricing officiel Sonnet 4.6 (3 $ / 15 $ par M tokens) :

Type de document	Tokens entrée typique	Tokens sortie	Coût brut Sonnet 4.6	Coût avec cache 80 %
Facture 1-2 pages	3 000-5 000	500	0,012-0,022 $	0,003-0,008 $
Devis 3-5 pages	6 000-12 000	1 000	0,033-0,051 $	0,010-0,016 $
Contrat 20 pages	25 000-50 000	2 000	0,105-0,180 $	0,030-0,055 $
Rapport annuel 100 pages	150 000-250 000	5 000	0,525-0,825 $	0,160-0,275 $

Cas PME concret : 200 factures fournisseurs/mois extraites en JSON structuré, vers Pennylane.

Sans cache : 200 × 0,015 $ = 3 $/mois (≈ 36 $/an).
Avec cache (system prompt + schéma JSON cachés) : 200 × 0,005 $ = 1 $/mois (≈ 12 $/an).
Comparaison AWS Textract (~ 0,015 $ par page) : 200 × 2 pages × 0,015 $ = 6 $/mois (72 $/an), sans le mapping vers schéma métier.

Pour le détail des économies prompt caching, voir notre guide prompt caching Claude API 2026.

Pour les volumes industriels (1 000+ docs/jour), passer en Batch API divise encore le coût par 2 (-50 % du tarif standard). Voir notre analyse Batch API Claude ROI workflows PME.

Structured Outputs : ce qui marche, ce qui ne marche pas

D’après la doc officielle, le JSON Schema accepté par Structured Outputs supporte :

Tous les types de base (object, array, string, integer, number, boolean, null)
enum (strings, numbers, bools, nulls — pas de types complexes)
anyOf, allOf (avec limites sur $ref)
Formats string : date-time, time, date, duration, email, hostname, uri, ipv4, ipv6, uuid

Et ne supporte pas :

Schemas récursifs
Types complexes dans les enums
$ref externe
Contraintes numériques (minimum, maximum, multipleOf)
Contraintes string (minLength, maxLength)
Contraintes array au-delà de minItems: 0 ou 1

Anthropic note que les SDK Python, TypeScript, Ruby et PHP « transforment automatiquement les schémas avec features non supportées en les retirant et en ajoutant les contraintes dans les descriptions de champs ». Pas besoin de réécrire vos modèles Pydantic à la main.

Pour les workflows nécessitant des contraintes plus strictes (validation montants > 0, IBAN valide, SIRET 14 chars), faire la validation post-réception dans Pydantic ou un validateur custom. Le strict: true Anthropic garantit la conformité au schéma JSON, pas la validation métier.

Cinq pièges en production

1. PDFs scannés de mauvaise qualité

Un PDF scanné en 200 dpi avec biais et taches dégrade fortement la qualité d’extraction. Symptôme : montants à virgule transformés en points, dates inversées, noms propres altérés. Mitigation : pre-process en amont (deskew + binarisation), ou demander explicitement à Claude « si tu n’es pas sûr d’un chiffre, retourne null » dans le system prompt.

2. PDFs chiffrés / protégés

Anthropic refuse les PDFs avec password ou encryption (« Standard PDF, no passwords/encryption »). Mitigation : déchiffrer en amont avec qpdf --decrypt ou pikepdf Python, en local, AVANT d’envoyer.

3. Documents > 32 MB ou > 600 pages

Limite hard. Mitigation : splitter le PDF en sections logiques (par exemple par chapitre, par exercice fiscal) et faire plusieurs requêtes. La Files API permet de stocker chaque section et de les référencer par file_id sans repasser par le base64.

4. Tableaux multi-pages avec en-têtes répétés

Quand un tableau s’étend sur 5+ pages avec en-tête répété, Claude peut compter chaque répétition d’en-tête comme une nouvelle ligne. Mitigation : préciser explicitement « les en-têtes répétés en haut de chaque page sont des artefacts de mise en page, pas des lignes de données ». Ou pré-extraire le tableau en Excel via tabula-py avant d’envoyer.

5. Multi-langues et OCR de documents non-français

Sur des documents bilingues (contrat FR/EN, facture étrangère), forcer la langue cible dans le system : « les nombres et dates sont au format français : 1 234,56 € et 15/05/2026 ». Évite les confusions de séparateurs décimaux et milliers.

Pattern PME : pipeline d’extraction batch nuit

Pour une PME qui traite 200-500 documents/jour, le pattern de référence en 2026 :

Capture : email entrant, scanner réseau, sftp fournisseur → dépôt dans queue (S3, Cloudflare R2, ou simple folder watch).
Upload Files API : chaque fichier nouveau est uploadé une fois sur Anthropic via client.beta.files.upload, le file_id est stocké en base.
Batch API : à 22h, créer un batch contenant toutes les requêtes du jour avec leur file_id + schéma cible. Coût -50 % vs synchrone.
Polling / webhook : le batch est traité dans les 24 h (souvent < 1 h en pratique).
Validation : récupérer chaque résultat, valider via Pydantic, router vers Pennylane / Sage / CRM via API.
Anomalies : si Pydantic rejette, marquer pour revue humaine. Si Claude a renvoyé needs_human flag dans le JSON (champ optionnel), idem.

Pour le détail Files API et le couplage avec votre RAG existant, voir notre analyse Anthropic Files API vs RAG vector DB pour PME.

Comparatif rapide vs alternatives 2026

Solution	Coût par facture 2 pages	Précision native vs scanné	Sortie structurée	Effort intégration
Claude Sonnet 4.6 multimodal + Files API	0,005-0,022 $	Élevée / Élevée	Native (Structured Outputs)	Faible
Claude Opus 4.7 multimodal	0,025-0,060 $	Très élevée / Élevée	Native	Faible
GPT-5.5 vision	0,025-0,060 $	Élevée / Moyenne	response_format JSON	Faible
Mistral OCR 3 (mai 2026)	0,002-0,004 $ (2 $/1 000 pages standard, 1 $/1 000 pages batch)	Moyenne-élevée / Élevée	Markdown structuré + tables HTML	Moyen (post-parsing)
AWS Textract Forms	~0,10 $ (0,05 $/page Forms, 2 pages)	Moyenne / Élevée	Champs prédéfinis	Élevé (mapping)
AWS Textract DetectText (texte simple)	~0,003 $	Faible / Moyenne	Plain text	Très élevé
Tesseract self-hosted	0 $ (compute)	Faible / Faible	Plain text	Très élevé

Pour les workflows bureautique adjacents (Excel, PowerPoint), voir notre analyse Claude Excel PowerPoint Opus 4.7 bureautique PME.

Le ROI 12 mois pour une PME 30-50 personnes

Hypothèses : 200 factures + 30 devis + 5 contrats à analyser/mois.

Poste	Avant (humain)	Après (Claude)	Gain
Saisie comptable factures	200 × 5 min = 17 h/mois	200 × 0,01 € = 2 €/mois + revue 5 min × 200 × 10 % anomalies = 1,7 h	15 h/mois
Comparaison devis	30 × 30 min = 15 h/mois	30 × 0,015 € = 0,45 € + revue 10 min × 30 = 5 h	10 h/mois
Audit contrats	5 × 3 h = 15 h/mois	5 × 0,05 € = 0,25 € + revue 1 h × 5 = 5 h	10 h/mois
Total	47 h/mois	~12 h/mois + 3 €	35 h/mois ≈ 4 j/mois

Pour une PME où le coût horaire moyen est de 35 €/h, le gain mensuel est d’environ 1 200 € pour un coût LLM de 3 €. ROI annuel : ~ 14 000 €. Plus la valorisation indirecte de la qualité (moins d’erreurs de saisie, traçabilité, audit interne).

Pour la migration depuis un workflow d’extraction GPT-5.5 existant, suivre la procédure générale dans notre guide migration GPT vers Claude Sonnet 4.6 PME.

FAQ

Claude lit-il les PDF scannés ou seulement les PDF natifs ?

Les deux. Claude convertit chaque page en image (vision) ET en extrait le texte. Pour un PDF natif texte (généré par Word ou InDesign), l’extraction text est précise. Pour un PDF scanné (image de page), seule la vision intervient et l’OCR est calibré sur Sonnet 4.6 et Opus 4.7. Qualité comparable à AWS Textract sur la plupart des factures et devis modernes, sensiblement meilleure sur les contrats complexes.

Quelle est la limite de taille et de pages d’un PDF en 2026 ?

Anthropic plafonne à 32 MB par requête et 600 pages pour les modèles à contexte 1M (Sonnet 4.6, Opus 4.7). Pour Haiku 4.5 (contexte 200k), la limite descend à 100 pages. Les deux limites sont sur la requête entière (PDF + autres contenus). Pour les fichiers plus gros, splitter le doc en sections et utiliser la Files API pour éviter le base64 lourd.

Combien coûte l’extraction d’une facture de 2 pages en 2026 ?

Sur Claude Sonnet 4.6 (3 $ entrée / 15 $ sortie par M tokens) : une facture standard de 2 pages consomme ~4 000-6 000 tokens d’entrée (texte + image) et génère ~500 tokens JSON structuré. Coût total : entre 0,02 $ et 0,03 $ par facture. Avec prompt caching activé sur le system prompt et le schéma JSON, le coût descend à 0,005-0,010 $ par facture sur les volumes répétés.

Doit-on combiner Files API et Structured Outputs ?

Oui pour la production. Files API évite l’overhead base64 et permet de réutiliser le même fichier sur plusieurs requêtes (extraction + résumé + traduction). Structured Outputs garantit une sortie JSON conforme à un schéma Pydantic ou JSON Schema. Le combo Files API + Batch API + Structured Outputs est le pattern de référence pour traiter 100-10 000 documents par lot la nuit.

Les 3 cas d’usage qui font basculer une PME en 2026

Comment Claude lit un PDF en 2026

Modèles compatibles et limites

Snippet Python officiel : extraction d’une facture en JSON structuré

Étape 1 — Définir le schéma Pydantic

Étape 2 — Upload via Files API + extraction Structured Outputs

Calcul coût par document en 2026

Structured Outputs : ce qui marche, ce qui ne marche pas

Cinq pièges en production

1. PDFs scannés de mauvaise qualité

2. PDFs chiffrés / protégés

3. Documents > 32 MB ou > 600 pages

4. Tableaux multi-pages avec en-têtes répétés

5. Multi-langues et OCR de documents non-français

Pattern PME : pipeline d’extraction batch nuit

Comparatif rapide vs alternatives 2026

Le ROI 12 mois pour une PME 30-50 personnes

FAQ

Claude lit-il les PDF scannés ou seulement les PDF natifs ?

Quelle est la limite de taille et de pages d’un PDF en 2026 ?

Combien coûte l’extraction d’une facture de 2 pages en 2026 ?

Doit-on combiner Files API et Structured Outputs ?

Sources primaires