Claude Code : diviser par deux votre consommation de tokens

GuidePar la rédaction11 min

Claude Code facture à la consommation de tokens d’API. Et le poste de dépense qui explose, ce n’est presque jamais la longueur de vos questions : c’est le contexte, ce que l’outil traîne avec lui à chaque message. Fichiers lus, sorties de commandes, historique de conversation, CLAUDE.md, serveurs MCP. Plus ce contexte gonfle, plus chaque réponse coûte cher. La bonne nouvelle : Claude Code expose des commandes précises pour le piloter, et la plupart des développeurs ne s’en servent pas.

Ce guide couvre uniquement des commandes et des fonctionnalités réelles, vérifiées dans la documentation officielle Anthropic (à jour en juin 2026). Pas de « hack » inventé, pas de raccourci magique. Juste la mécanique du contexte, et comment la reprendre en main.

Pourquoi Claude Code consomme autant de tokens

La consommation de tokens dans Claude Code est dominée par la taille du contexte : à chaque échange, le modèle relit l’intégralité de ce qui est chargé dans la fenêtre de contexte, et vous payez ce volume à chaque message.

Concrètement, une session démarre déjà chargée. Le prompt système (environ 4 200 tokens), votre mémoire automatique, les infos d’environnement, les noms d’outils MCP : tout ça occupe de la place avant même votre première question. Ensuite, chaque fichier lu, chaque sortie de test, chaque recherche s’empile. Un fichier de 1 600 tokens lu trois fois reste trois fois dans le contexte tant que vous ne nettoyez pas.

Coût réel de Claude Code en entreprise (données Anthropic, 2026) :

environ 13 $ par développeur et par jour actif (moyenne sur déploiements entreprise)

150 à 250 $ par développeur et par mois

moins de 30 $ par jour actif pour 90 % des utilisateurs

environ 7x plus de tokens pour une équipe d’agents en mode plan qu’une session standard

Source : Claude Code Docs, « Manage costs effectively »

Deux mécanismes jouent en votre faveur sans rien faire. Le prompt caching réduit le coût des contenus répétés (prompt système, instructions stables). Et l’auto-compaction résume l’historique quand vous approchez de la limite de contexte. Mais ces automatismes sont des filets de sécurité, pas une stratégie. La vraie économie vient de ce que vous décidez de garder, ou pas, dans la fenêtre.

La méthode en une phrase

Réponse directe : pour diviser votre consommation de tokens, gardez le contexte petit et propre. Utilisez /clear entre deux tâches sans rapport, /compact pour résumer pendant une tâche longue, /context et /usage pour surveiller, le bon modèle via /model pour ne pas payer Opus quand Sonnet suffit, et déléguez les opérations verbeuses à des sous-agents. Le reste, ce sont des réglages.

On a appliqué exactement cette discipline sur des sessions de refonte longues. Le poste qui a fondu en premier, ce n’est pas le modèle : c’est l’habitude de relancer une session vierge au lieu de traîner trois heures d’historique inutile. Voici comment.

Maîtriser le contexte : /compact, /clear, /context

Ce sont les trois commandes que vous taperez le plus souvent. Elles agissent directement sur ce que Claude Code garde en mémoire de travail.

/clear : repartir de zéro entre deux tâches

/clear efface l’historique de conversation et démarre une session vierge. Vos fichiers de projet et votre CLAUDE.md restent disponibles ; seul l’historique du chat est supprimé.

C’est la commande la plus rentable, et la plus négligée. Vous venez de corriger un bug d’authentification, vous passez à une feature de pagination sans aucun rapport ? Si vous enchaînez sans /clear, tout le contexte de l’auth (fichiers lus, tests, analyses) reste chargé et vous le payez à chaque message de la nouvelle tâche. Un contexte périmé gaspille des tokens sur chaque échange suivant.

Astuce de la doc officielle : utilisez /rename avant de nettoyer pour retrouver facilement la session plus tard, puis /resume pour y revenir si besoin. Vous gardez la trace sans payer le poids.

/compact : résumer sans tout perdre

/compact demande au modèle de résumer la conversation, puis remplace l’historique par ce résumé pour libérer de l’espace tout en préservant l’essentiel. À utiliser quand vous êtes en plein milieu d’une tâche longue et que vous devez continuer.

La nuance qui change tout : vous pouvez orienter le résumé. /compact focus sur le bug d'auth dit à Claude ce qu’il faut garder, au lieu de le laisser deviner. Le résumé conserve ce que vous choisissez plutôt que ce que la passe automatique suppose important.

Vous pouvez aussi cadrer ce comportement durablement dans votre CLAUDE.md, avec une section dédiée :

# Compact instructions

When you are using compact, please focus on test output and code changes

Règle simple : /clear quand vous démarrez une nouvelle tâche, /compact quand vous en continuez une longue.

/context : voir ce qui mange votre fenêtre

/context affiche une répartition en direct de ce qui occupe la fenêtre de contexte, par catégorie, avec des suggestions d’optimisation. C’est votre tableau de bord. Avant de vous demander pourquoi une session coûte cher, tapez /context : vous verrez si ce sont les serveurs MCP, un gros fichier relu, ou l’historique qui pèse.

L’auto-compaction, et comment la déclencher plus tôt

L’auto-compaction est le mécanisme par lequel Claude Code, à l’approche de la limite de contexte, vide d’abord les anciennes sorties d’outils puis résume la conversation pour libérer de la place, sans intervention de votre part.

L’ordre compte : Claude Code efface d’abord les sorties d’outils les plus anciennes, puis résume la conversation seulement si nécessaire. Vos requêtes et les extraits de code clés sont préservés ; les instructions détaillées du tout début de conversation, elles, peuvent être perdues. D’où la règle d’or : mettez vos consignes durables dans CLAUDE.md, pas dans le fil de conversation.

Par défaut, l’auto-compaction se déclenche quand la fenêtre approche de la saturation. Vous pouvez la déclencher plus tôt avec une variable d’environnement :

Réglage de l’auto-compaction :

CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=70 compacte à 70 % de capacité au lieu d’attendre la quasi-saturation

Source : Claude Code Docs, « Explore the context window »

Compacter plus tôt veut dire travailler en permanence dans une fenêtre plus petite, donc des messages moins chers. Le compromis : un résumé plus fréquent peut perdre du détail. À calibrer selon vos sessions.

Un mot sur un cas pénible : si un seul fichier ou une seule sortie d’outil est si volumineux que le contexte se remplit à nouveau immédiatement après chaque résumé, Claude Code arrête de boucler au bout de quelques tentatives et affiche une erreur. C’est un signal : ce fichier géant n’a rien à faire dans le contexte principal. Filtrez-le (voir les hooks plus bas) ou déléguez-le.

Suivre la dépense : /usage (et non plus /cost)

Point important pour ne pas perdre de temps : dans les versions actuelles de Claude Code, le suivi se fait avec /usage. Le bloc « Session » en haut de /usage affiche les statistiques détaillées de consommation de tokens de votre session en cours.

Ce qu’affiche le bloc Session de /usage :

coût total estimé de la session (calculé localement à partir des tokens)

durée d’API cumulée et durée réelle (wall)

lignes de code ajoutées et supprimées

Source : Claude Code Docs, « Manage costs effectively »

Le montant en dollars est une estimation locale calculée à partir des comptes de tokens ; il peut différer de votre facture réelle. Pour la facturation qui fait foi, la documentation officielle renvoie vers la page Usage de la Console Claude.

Sur un plan Pro, Max, Team ou Enterprise, /usage ventile aussi votre consommation récente entre skills, sous-agents, plugins et serveurs MCP, chacun en pourcentage du total. Appuyez sur d ou w pour basculer entre les dernières 24 heures et les 7 derniers jours. C’est précieux : ça vous dit quel composant coûte cher, donc quoi désactiver.

Si vous voulez surveiller en continu sans taper de commande, configurez votre status line pour afficher l’usage de la fenêtre de contexte en permanence.

Choisir le bon modèle avec /model et /effort

Payer Opus pour tout, c’est la fuite de tokens la plus silencieuse. Sonnet traite très bien la majorité des tâches de code et coûte moins cher qu’Opus. Réservez Opus aux décisions d’architecture complexes ou au raisonnement multi-étapes.

/model change de modèle en cours de session. Vous pouvez aussi définir un modèle par défaut dans /config, ou lancer directement avec claude --model <nom>. Et pour les tâches simples confiées à un sous-agent, précisez model: haiku dans la configuration du sous-agent : inutile de mobiliser un gros modèle pour résumer un log.

Autre levier souvent ignoré : le raisonnement étendu (extended thinking). Il est activé par défaut parce qu’il améliore nettement les tâches de planification complexes, mais les tokens de réflexion sont facturés comme des tokens de sortie, et le budget par défaut peut atteindre des dizaines de milliers de tokens par requête.

Réduire le coût du raisonnement (tâches simples) :

baisser le niveau d’effort avec /effort ou depuis /model

désactiver le thinking depuis /config (sauf sur Fable 5, qui utilise toujours le raisonnement étendu)

sur un modèle à budget de réflexion fixe, abaisser le budget avec MAX_THINKING_TOKENS=8000

Source : Claude Code Docs, « Adjust extended thinking »

Attention : les modèles à raisonnement adaptatif ignorent un budget non nul, il faut donc passer par les niveaux d’effort sur ces modèles plutôt que par MAX_THINKING_TOKENS.

Alléger les serveurs MCP, le coût caché

Les serveurs MCP sont une cause fréquente de contexte obèse. Bonne nouvelle : par défaut, les définitions d’outils MCP sont différées (deferred), donc seuls les noms d’outils entrent dans le contexte jusqu’à ce que Claude utilise un outil précis.

Reste deux réflexes à prendre. D’abord, préférez les outils en ligne de commande quand ils existent : gh, aws, gcloud, sentry-cli restent plus économes en contexte qu’un serveur MCP, parce qu’ils n’ajoutent aucun listing d’outils. Claude peut lancer ces commandes directement. Ensuite, désactivez les serveurs inutilisés : tapez /mcp pour voir les serveurs configurés et couper ceux dont vous ne vous servez pas. /context vous montre au passage ce que chaque serveur consomme.

Déléguer aux sous-agents et préfiltrer avec les hooks

Deux techniques plus avancées, mais qui ont le plus gros impact sur les sessions longues.

Les sous-agents disposent de leur propre fenêtre de contexte, complètement séparée de votre conversation principale. Faites-leur exécuter les opérations verbeuses (lancer les tests, récupérer de la documentation, traiter des logs) : la sortie volumineuse reste dans le contexte du sous-agent, et seul un résumé revient dans votre conversation. C’est exactement pour ça que les sous-agents aident sur les longues sessions.

Petit garde-fou côté budget : les équipes d’agents (agent teams) lancent plusieurs instances de Claude Code, chacune avec son propre contexte. La consommation grimpe avec le nombre de coéquipiers actifs et leur durée de vie, jusqu’à environ 7x une session standard en mode plan. Gardez les équipes petites, les prompts de spawn ciblés, et fermez les coéquipiers dès leur travail terminé.

Les hooks, eux, préfiltrent les données avant que Claude ne les voie. Plutôt que de laisser Claude lire un fichier de log de 10 000 lignes pour trouver les erreurs, un hook peut filtrer sur ERROR et ne renvoyer que les lignes correspondantes : on passe de dizaines de milliers de tokens à quelques centaines. La doc officielle donne l’exemple d’un hook PreToolUse qui intercepte les commandes de test et ne garde que les échecs. C’est de l’ingénierie, mais sur un projet où vous lancez des suites de tests bavardes en boucle, le retour sur investissement est immédiat.

Garder CLAUDE.md léger et déplacer le reste en skills

Votre CLAUDE.md est chargé dans le contexte au démarrage de chaque session. S’il contient des instructions détaillées pour des workflows spécifiques (revues de PR, migrations de base de données), ces tokens sont présents même quand vous travaillez sur autre chose.

La règle de la doc : viser un CLAUDE.md sous 200 lignes, en ne gardant que l’essentiel. Tout ce qui est spécialisé part dans des skills, qui se chargent à la demande seulement quand ils sont invoqués. Claude voit la description du skill au démarrage, mais le contenu complet ne charge que quand le skill sert. Vous gardez une base de contexte minimale toute la journée, et la connaissance spécialisée arrive pile quand elle est utile.

Dernier réflexe, le plus banal et le plus efficace : écrire des prompts précis. Une demande vague comme « améliore ce codebase » déclenche un scan large et coûteux. « Ajoute la validation d’entrée à la fonction de login dans auth.ts » laisse Claude travailler avec un minimum de lectures de fichiers. Le mode plan (Shift+Tab) avant une tâche complexe évite aussi les allers-retours coûteux quand la première direction était la mauvaise.

Tableau récapitulatif : la commande, son effet sur les tokens

Commande / réglage	Ce que ça fait	Quand l’utiliser
`/clear`	Efface l’historique, session vierge (fichiers et CLAUDE.md conservés)	Au passage à une tâche sans rapport
`/compact [focus]`	Résume la conversation, libère de l’espace, garde ce que vous ciblez	En plein milieu d’une tâche longue
`/context`	Répartition en direct de ce qui occupe la fenêtre	Pour diagnostiquer un contexte lourd
`/usage`	Stats de tokens et coût estimé de la session, ventilation par composant	Pour suivre la dépense
`/model` · `/effort`	Change de modèle / baisse le niveau de raisonnement	Pour ne pas surpayer une tâche simple
`/mcp`	Liste et désactive les serveurs MCP	Pour couper les serveurs inutilisés
`CLAUDE_AUTOCOMPACT_PCT_OVERRIDE`	Déclenche l’auto-compaction plus tôt	Pour travailler dans une fenêtre plus petite
`MAX_THINKING_TOKENS`	Abaisse le budget de réflexion (modèles à budget fixe)	Tâches sans raisonnement profond

Le réflexe à prendre, et celui à oublier

Si vous ne deviez retenir qu’une chose : /clear entre deux tâches. La plupart des guides vous parleront d’optimisations fines avant de mentionner ça, alors que c’est l’économie la plus simple et la plus grosse. Un développeur qui relance une session vierge à chaque nouvelle tâche dépense structurellement moins qu’un développeur qui traîne deux heures d’historique « au cas où ».

Le réflexe à oublier, à l’inverse : croire qu’il faut un gros modèle pour tout. Sonnet par défaut, Opus pour l’architecture, Haiku pour les sous-tâches de sous-agents. La hiérarchie de modèles n’est pas un détail de réglage, c’est le poste de coût numéro un après le contexte.

Ces principes (garder le contexte propre, mesurer, ne payer que ce qui sert) sont les mêmes qui font la différence quand on construit des systèmes plus larges. Si vous voulez voir comment cette logique s’applique à la génération d’un site entier piloté par des agents IA, on a documenté l’approche dans notre guide pour générer un site avec un agent IA sans sacrifier le SEO. Et si l’idée d’industrialiser ce type de workflow IA dans votre structure vous parle, c’est exactement le métier de notre agence IA.

FAQ

Quelle est la commande Claude Code qui réduit le plus la consommation de tokens ?
/clear. Elle efface l’historique de conversation et démarre une session vierge en conservant vos fichiers et votre CLAUDE.md. Un contexte périmé est facturé à chaque message, donc nettoyer entre deux tâches sans rapport coupe la dépense de façon immédiate et durable.

Quelle différence entre /compact et /clear ?
/clear supprime tout l’historique pour repartir de zéro : à utiliser quand vous changez de tâche. /compact résume la conversation et remplace l’historique par ce résumé sans tout perdre : à utiliser en plein milieu d’une tâche longue que vous devez poursuivre. La règle : clear pour commencer, compact pour continuer.

Le /cost existe-t-il encore dans Claude Code ?
Le suivi de session se fait désormais avec /usage, dont le bloc « Session » affiche les statistiques détaillées de consommation de tokens et le coût estimé. Le montant en dollars est une estimation locale ; pour la facturation qui fait foi, consultez la page Usage de la Console Claude.

Faut-il toujours utiliser le modèle le plus puissant ?
Non. Sonnet traite très bien la plupart des tâches de code pour un coût inférieur à Opus, qu’on réserve aux décisions d’architecture et au raisonnement multi-étapes. Pour les sous-tâches d’un sous-agent, Haiku suffit souvent. Changez de modèle en cours de session avec /model.

Comment savoir ce qui consomme mon contexte ?
Tapez /context pour une répartition en direct par catégorie, avec des suggestions d’optimisation. Sur les plans payants, /usage ventile aussi votre consommation entre skills, sous-agents, plugins et serveurs MCP, sur 24 heures ou 7 jours.

Comment éviter qu’un gros fichier ne gonfle le contexte ?
Déléguez son traitement à un sous-agent (sa sortie reste dans le contexte du sous-agent, seul un résumé revient) ou préfiltrez-le avec un hook qui ne renvoie que les lignes utiles. Évitez aussi de relire le même fichier plusieurs fois dans une session : chaque lecture s’empile dans la fenêtre.

Sources

Vous êtes une entreprise ?

Ordiama, c'est aussi une agence IA à Strasbourg : on crée votre site, on vous rend visible dans l'IA et on automatise vos tâches.

Découvrir l'agence →