Maîtriser sa consommation de tokens dans Claude

Claude calcule les tokens à partir de plusieurs sources simultanées, la plupart invisibles à l'utilisateur. Ce guide recense les leviers concrets pour réduire sa consommation sans perdre en qualité de réponse. Chaque astuce est autonome : appliquez celles qui correspondent à votre usage.

Fondamentaux

Comment Claude consomme vos tokens

Lorsque vous envoyez un message à Claude, le modèle ne lit pas seulement votre texte. Il charge un ensemble de sources en parallèle, souvent sans que vous le sachiez. Dans une session typique, la répartition réelle de la consommation est la suivante :

51 %

Historique de la conversation en cours

20 %

System prompt, règles, personnalité

13 %

Appels aux serveurs MCP connectés

10 %

Mémoire persistante (souvenirs)

6 %

Outils connectés (Google Drive, etc.)

      En pratique, moins de 10 % de la consommation provient de votre message lui-même.
      Les 90 % restants sont du chargement en coulisse que vous pouvez, en grande partie, contrôler.
    

Potentiel de réduction estimé jusqu'à 70 %

Astuce N°1 · Impacte fort

Maîtriser la longueur des conversations

L'historique représente jusqu'à 51 % de la consommation. Le mécanisme est simple et souvent sous-estimé : à chaque message envoyé, Claude relit l'intégralité de l'échange précédent. Le 30e message coûte donc environ 30 fois plus de tokens que le premier.

Exemple concret

Deux messages + un fichier de skills = entre 20 000 et 27 000 tokens.
Le même échange en conversation fraîche = 18 000 à 20 000 tokens. La différence ? Uniquement l'historique accumulé.

Règle pratique

Maximum 15 à 20 messages par conversation. Au-delà, la courbe de consommation devient exponentielle.

📋

Créer un résumé de transition

Avant de dépasser 15 messages, demandez à Claude : "Résume tout ce que nous avons fait d'important ici sous la forme d'une fiche projet de 300 à 400 tokens." Copiez ce résumé et collez-le comme premier message de la nouvelle conversation.

✏️

Modifier plutôt que relancer

Si votre prompt contient une erreur, éditez-le directement plutôt que d'en écrire un nouveau. Vous évitez d'ajouter un échange supplémentaire à l'historique et de déclencher une nouvelle lecture de contexte.

🎯

Cibler la modification

Si Claude a produit un long texte et que vous souhaitez modifier une seule section, précisez : "Modifie uniquement la partie 3 en la focalisant sur les PME." Il ne régénèrera que la section concernée.

Astuce N°2 · Fichiers joints

Optimiser les pièces jointes

Un PDF transmis directement à Claude consomme entre 6 800 et 7 000 tokens en entrée. Converti au format Markdown (.md), ce même document descend à 2 800 tokens : une réduction par 3.

À éviter

Déposer un PDF directement dans Claude

Coût : 6 800 à 7 000 tokens à chaque utilisation

→

Pratique optimisée

Convertir en .md via ChatGPT gratuit, puis utiliser le fichier .md

Coût : 2 800 tokens · Réduction ÷ 3

Ouvrir ChatGPT (version gratuite suffit)

Déposer le PDF et demander : "Crée un fichier .md de ce document."

Copier le contenu Markdown généré

Sauvegarder ce contenu en tant que fichier texte .md sur votre poste.

Utiliser le .md dans Claude

À chaque conversation, vous partez avec un fichier 3 fois plus léger. Si vous l'utilisez 5 fois par jour, l'économie atteint rapidement 20 000 tokens.

Astuce N°3 · Structure

Utiliser les Projets Claude

Sans la fonctionnalité Projets, chaque conversation charge indépendamment les fichiers associés. Avec un fichier de 12 000 tokens utilisé dans 10 conversations séparées, on atteint 120 000 tokens. Via un Projet, ce même usage total descend à environ 22 000 tokens.

📁

Centraliser les fichiers

Ajoutez les documents récurrents une seule fois dans le Projet. Claude les partagera entre toutes les conversations du Projet grâce au mécanisme RAG (Retrieval Augmented Generation), qui extrait uniquement les passages pertinents.

📝

Écrire des instructions dans le Projet

Renseignez votre métier, vos préférences de réponse, vos contraintes habituelles. Ces informations n'auront plus à être répétées dans chaque prompt individuel.

💬

Instruction d'économie de tokens

Ajoutez dans les instructions du Projet : "Sois conscient que je veux économiser mes tokens. Sois concis. Recommande-moi de créer une nouvelle conversation avant que l'historique ne devienne trop lourd."

RAG (Retrieval Augmented Generation)

Dans un Projet, Claude ne lit pas l'intégralité de chaque document à chaque message. Il extrait dynamiquement les passages pertinents (8 à 12 % du document selon la question), ce qui réduit drastiquement la consommation sur les fichiers volumineux.

Astuce N°4 · Contexte personnel

Paramétrer la mémoire efficacement

La mémoire et les préférences peuvent représenter 5 à 10 % de la consommation. Sans mémoire configurée, vous devez répéter votre contexte (métier, style, contraintes) à chaque conversation. Avec une mémoire bien structurée, une seule lecture suffit.

Aller dans Paramètres > Instructions globales

Renseignez votre métier, votre style de communication souhaité, vos préférences de formatage. Ce contexte sera disponible dans toutes les conversations.

Désactiver "Générer des souvenirs à partir des conversations"

Cette option enrichit automatiquement la mémoire après chaque échange, ce qui augmente progressivement la taille du contexte chargé. Désactivez-la sauf besoin spécifique.

Écrire une mémoire concise et structurée

Plus la mémoire est courte et précise, moins elle consomme de tokens à chaque chargement. Évitez les formulations verbeuses : allez à l'essentiel.

Décision personnelle : la fonctionnalité "Rechercher et référencer d'autres conversations" peut être utile, mais elle augmente la consommation. Activez-la uniquement si vous en avez un besoin concret.

Astuce N°5 · La plus impactante

Optimiser la rédaction des prompts

La manière dont vous formulez vos demandes influence directement le volume de tokens consommés. Trois principes clés permettent d'agir immédiatement.

🔗

Regrouper les demandes

Mettez toutes vos instructions dans un seul message plutôt qu'en plusieurs échanges successifs. Trois messages séparés peuvent atteindre 41 000 tokens, quand un message groupé équivalent en consomme beaucoup moins.

🗺️

Planifier avant d'exécuter

Pour les tâches complexes (rapport + Excel + PowerPoint), planifiez d'abord dans le chat (peu coûteux), puis allez dans Claude Code ou un outil d'exécution avec le plan déjà établi. La planification dans l'outil d'exécution coûte inutilement cher.

❓

Laisser Claude poser des questions

Commencez par : "De quoi as-tu besoin pour répondre de façon optimale ?" Claude liste exactement les informations nécessaires. Vous évitez ainsi de surcharger le prompt avec des informations superflues.

Approche coûteuse

Message 1 : "Rédige un rapport sur..."
Message 2 : "Ajoute une section sur..."
Message 3 : "Reformule la conclusion..."

Résultat : 3 lectures complètes de l'historique

→

Approche optimisée

Un seul message : "Rédige un rapport sur X. Inclus une section Y. La conclusion doit Z."

Résultat : 1 seule lecture de contexte

Astuce N°6 · Économie directe

Choisir le bon modèle

Tous les modèles Claude n'ont pas le même coût. Utiliser Opus pour des tâches banales revient à prendre un taxi pour traverser la rue. 90 % des tâches courantes peuvent être traitées par Haiku ou Sonnet.

Modèle	Coût relatif	Quand l'utiliser
Claude Haiku	Très faible · ÷60 vs Opus	Résumés rapides Reformulations Questions simples Tri de données FAQ
Claude Sonnet	Modéré · ÷5 vs Opus	Rédaction de rapports Analyse de données Code standard Traductions Présentations
Claude Opus	Élevé · référence	Architecture système Raisonnement complexe Relecture finale critique Code avancé

Recommandations additionnelles

→ Réflexion adaptative : ne l'activez pas par défaut. Réservez-la à Opus 4 pour des tâches de raisonnement véritablement complexes.

→ Heures creuses : en France, entre minuit et 14h, la charge serveur Anthropic est plus faible. Planifiez vos traitements intensifs le matin si possible.

→ Prototypage : commencez avec Sonnet dans le chat pour concevoir, puis basculez sur l'outil d'exécution seulement pour la production finale.

Astuce N°7 · Paramétrage

Désactiver les fonctionnalités inutiles

Claude charge et appelle automatiquement tous les connecteurs et outils activés, même s'ils ne sont pas utiles à la tâche en cours. Chaque serveur MCP activé représente 13 % de consommation supplémentaire, que Claude l'utilise ou non.

MCP inutilisés · à désactiver Recherche web si non nécessaire · à désactiver Artefacts IA · à désactiver si non utilisés Visualisations intégrées · à désactiver Génération de mémoire automatique · à désactiver

🔌

Connecteurs et MCP

Désactivez tous les connecteurs par défaut. Activez-les uniquement au moment où vous en avez besoin, puis désactivez-les après usage. Un MCP activé en permanence est un drain constant sur vos tokens.

⚙️

Skills et déclencheurs précis

Si vous utilisez des skills personnalisés, précisez des conditions de déclenchement strictes. Exemple : "Déclenche-toi seulement si le message contient le mot 'email'." Sans cela, Claude les appelle à chaque échange.

📂

Organisation des dossiers

Dans Claude Code ou les espaces de travail, évitez les dossiers avec de nombreux fichiers au premier niveau. Créez des sous-dossiers : Claude lit tous les fichiers d'un dossier à chaque accès.

Principe général : tout ce que Claude a en vue, il le charge. Moins il y a d'outils activés, moins il y a de chargement en coulisse, plus vos tokens vont à l'essentiel : votre réponse.

Ne plus jamais atteindre
la limite de tokens