Computer use et Agent SDK Anthropic : ce que les PME peuvent automatiser en 2026

Deux capacités Anthropic ont élargi l’horizon d’automatisation PME. Elles ne sont pas concurrentes. Computer use s’attaque aux interfaces sans API. Tool use orchestre la logique entre ces interfaces et vos données.

Computer use : Claude aux commandes d’un vrai écran

Computer use ne passe pas par une API REST de l’application cible. Claude reçoit un screenshot de l’écran, identifie les éléments visuels, et produit des actions : clic à des coordonnées précises, frappe clavier, défilement. Boucle screenshot vers action vers screenshot.

C’est la seule option disponible quand votre logiciel métier n’expose pas d’API. ERP des années 2000, portails fournisseurs, extranets bancaires — tout ce qui ne répond qu’à la souris.

État en 2026. Computer use est en beta publique. Il s’active via le header anthropic-beta: computer-use-2025-11-24. Modèles compatibles : Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6, Claude Opus 4.5. Sur WebArena — benchmark de navigation autonome sur sites réels — Claude atteint les meilleurs résultats parmi les systèmes single-agent à ce jour.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    tools=[{
        "type": "computer_20251124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
    }],
    messages=[{
        "role": "user",
        "content": "Ouvre le formulaire fournisseur et remplis les champs avec ces données : ..."
    }],
    betas=["computer-use-2025-11-24"],
)

Coût réel en tokens. La définition de l’outil computer use ajoute 735 tokens au contexte (Claude 4.x). Le système prompt injecté automatiquement représente 466 à 499 tokens supplémentaires. Chaque screenshot est ensuite facturé selon la grille Vision (proportionnel à la résolution). Une séquence de 20 actions sur un formulaire peut consommer 40 000 à 60 000 tokens d’entrée selon la résolution.

Latence. Anthropic indique explicitement que la latence de computer use peut être trop lente pour les interactions humaines en temps réel. Priorité aux cas où la vitesse n’est pas critique : collecte d’informations en arrière-plan, tests automatisés, traitements de nuit.

Fiabilité. La beta comporte des limites documentées : précision des coordonnées variable selon les applications, dropdowns et scrollbars parfois imprécis, sensibilité au prompt injection via le contenu des pages affichées. Une boucle de vérification post-action est recommandée en production.

Tool use : la colonne vertébrale de l’orchestration agents

L’API tool use permet à Claude d’appeler des fonctions que vous définissez en JSON. Claude décide quand appeler quel outil selon le contexte, construit les arguments, et retourne un bloc tool_use que votre application exécute côté client.

C’est la brique fondamentale pour construire des agents structurés : extraction de données, validation, écriture en base, appels d’API externes.

import anthropic

client = anthropic.Anthropic()

tools = [
    {
        "name": "get_invoice_data",
        "description": "Récupère les données d'une facture depuis la base ERP.",
        "input_schema": {
            "type": "object",
            "properties": {
                "invoice_id": {
                    "type": "string",
                    "description": "Identifiant de la facture"
                }
            },
            "required": ["invoice_id"]
        }
    }
]

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    tools=tools,
    messages=[{
        "role": "user",
        "content": "Analyse la facture FAC-2026-001 et vérifie les montants."
    }]
)

Surcharge tokens. Le système prompt tool use ajoute 346 tokens par requête en mode auto pour Claude 4.x (313 tokens en mode any/tool). Chaque définition d’outil consomme ensuite des tokens proportionnels à la taille de son schéma JSON. Avec 5 outils bien définis, comptez 500 à 1 500 tokens d’overhead total.

Règle pratique : n’exposez que les outils pertinents au contexte courant. Un agent de saisie comptable n’a pas besoin d’accéder aux outils CRM.

Combiner les deux : workflow PME type

Un cabinet de gestion reçoit 50 fiches de paie PDF par mois. L’ERP interne n’a pas d’API d’import. Saisie manuelle actuelle : 3 minutes par fiche, soit 2,5 heures.

Architecture hybride :

flowchart LR
    A[PDF fiche de paie] --> B[Agent extracteur\ntool use + PDF parsing]
    B --> C{Données JSON\nvalidées}
    C --> D[Agent vérificateur\ncontrôle règles paie]
    D --> E[Computer use\nSaisie ERP via GUI]
    E --> F[Screenshot\nvérification champ clé]
    F --> G{Confirmation\nOK ?}
    G -- Non --> H[Alerte humain]
    G -- Oui --> I[Archivage\nautomatique]

L’agent tool use gère l’extraction et la validation — données structurées, rapide, fiable. Computer use intervient uniquement pour la saisie ERP sans API. La boucle de vérification post-saisie réduit le risque d’erreur silencieuse.

Coût estimé pour 50 fiches : entre 3 et 8 euros en tokens selon la résolution d’écran et la complexité des formulaires. Contre 2,5 heures humaines valorisées à 25-35 euros par heure. L’amortissement du développement initial (20 à 30 heures) intervient en 2 à 4 mois selon le volume.

Quand adopter, quand attendre

Adopter computer use maintenant si :

Vous avez un flux répétitif sur interface GUI sans API (extranet, ERP legacy)
Le volume justifie l’investissement : plus de 20 tâches identiques par semaine
L’interface est stable dans le temps — un redesign fréquent casse les workflows

Attendre si :

Vous avez besoin de fiabilité proche de 100 % sans supervision humaine
Votre stack expose déjà une API REST — utilisez-la directement, c’est nettement moins cher et plus fiable
La latence est critique (traitement temps réel, actions déclenchées par un utilisateur)

Note sur l’Agent SDK. L’URL documentaire dédiée à l’Agent SDK (docs.anthropic.com/en/docs/agents-and-tools/agent-sdk) retourne actuellement une erreur 404 — la documentation Anthropic a migré vers platform.claude.com et certaines pages de redirection ne sont pas encore stabilisées. Les capacités d’orchestration multi-agents sont documentées via l’API tool use standard. Le terme “Agent SDK” désigne vraisemblablement l’ensemble de ces primitives accessibles via le package Python anthropic.

Computer use n’est pas une solution universelle. Pour les interfaces stables avec données structurées, le tool use seul est plus fiable, plus rapide et moins coûteux. L’hybridation a du sens uniquement quand la GUI est le seul point d’accès disponible.