Guide de formation · Claude AI

Ne plus jamais atteindre
la limite de tokens

Comprendre, anticiper et réduire sa consommation de tokens dans Claude, quel que soit son métier ou son usage.

Tous niveaux Claude · claude.ai Réduction jusqu'à 70 %

Claude calcule les tokens à partir de plusieurs sources simultanées, la plupart invisibles à l'utilisateur. Ce guide recense les leviers concrets pour réduire sa consommation sans perdre en qualité de réponse. Chaque astuce est autonome : appliquez celles qui correspondent à votre usage.

01

Comment Claude consomme vos tokens

Lorsque vous envoyez un message à Claude, le modèle ne lit pas seulement votre texte. Il charge un ensemble de sources en parallèle, souvent sans que vous le sachiez. Dans une session typique, la répartition réelle de la consommation est la suivante :

51 %
Historique de la conversation en cours
20 %
System prompt, règles, personnalité
13 %
Appels aux serveurs MCP connectés
10 %
Mémoire persistante (souvenirs)
6 %
Outils connectés (Google Drive, etc.)
En pratique, moins de 10 % de la consommation provient de votre message lui-même. Les 90 % restants sont du chargement en coulisse que vous pouvez, en grande partie, contrôler.
Potentiel de réduction estimé jusqu'à 70 %
02

Maîtriser la longueur des conversations

L'historique représente jusqu'à 51 % de la consommation. Le mécanisme est simple et souvent sous-estimé : à chaque message envoyé, Claude relit l'intégralité de l'échange précédent. Le 30e message coûte donc environ 30 fois plus de tokens que le premier.

Exemple concret
Deux messages + un fichier de skills = entre 20 000 et 27 000 tokens.
Le même échange en conversation fraîche = 18 000 à 20 000 tokens. La différence ? Uniquement l'historique accumulé.
Règle pratique
Maximum 15 à 20 messages par conversation. Au-delà, la courbe de consommation devient exponentielle.
📋
Créer un résumé de transition
Avant de dépasser 15 messages, demandez à Claude : "Résume tout ce que nous avons fait d'important ici sous la forme d'une fiche projet de 300 à 400 tokens." Copiez ce résumé et collez-le comme premier message de la nouvelle conversation.
✏️
Modifier plutôt que relancer
Si votre prompt contient une erreur, éditez-le directement plutôt que d'en écrire un nouveau. Vous évitez d'ajouter un échange supplémentaire à l'historique et de déclencher une nouvelle lecture de contexte.
🎯
Cibler la modification
Si Claude a produit un long texte et que vous souhaitez modifier une seule section, précisez : "Modifie uniquement la partie 3 en la focalisant sur les PME." Il ne régénèrera que la section concernée.
03

Optimiser les pièces jointes

Un PDF transmis directement à Claude consomme entre 6 800 et 7 000 tokens en entrée. Converti au format Markdown (.md), ce même document descend à 2 800 tokens : une réduction par 3.

À éviter
Déposer un PDF directement dans Claude

Coût : 6 800 à 7 000 tokens à chaque utilisation
Pratique optimisée
Convertir en .md via ChatGPT gratuit, puis utiliser le fichier .md

Coût : 2 800 tokens · Réduction ÷ 3
1
Ouvrir ChatGPT (version gratuite suffit)
Déposer le PDF et demander : "Crée un fichier .md de ce document."
2
Copier le contenu Markdown généré
Sauvegarder ce contenu en tant que fichier texte .md sur votre poste.
3
Utiliser le .md dans Claude
À chaque conversation, vous partez avec un fichier 3 fois plus léger. Si vous l'utilisez 5 fois par jour, l'économie atteint rapidement 20 000 tokens.
04

Utiliser les Projets Claude

Sans la fonctionnalité Projets, chaque conversation charge indépendamment les fichiers associés. Avec un fichier de 12 000 tokens utilisé dans 10 conversations séparées, on atteint 120 000 tokens. Via un Projet, ce même usage total descend à environ 22 000 tokens.

📁
Centraliser les fichiers
Ajoutez les documents récurrents une seule fois dans le Projet. Claude les partagera entre toutes les conversations du Projet grâce au mécanisme RAG (Retrieval Augmented Generation), qui extrait uniquement les passages pertinents.
📝
Écrire des instructions dans le Projet
Renseignez votre métier, vos préférences de réponse, vos contraintes habituelles. Ces informations n'auront plus à être répétées dans chaque prompt individuel.
💬
Instruction d'économie de tokens
Ajoutez dans les instructions du Projet : "Sois conscient que je veux économiser mes tokens. Sois concis. Recommande-moi de créer une nouvelle conversation avant que l'historique ne devienne trop lourd."
RAG (Retrieval Augmented Generation)
Dans un Projet, Claude ne lit pas l'intégralité de chaque document à chaque message. Il extrait dynamiquement les passages pertinents (8 à 12 % du document selon la question), ce qui réduit drastiquement la consommation sur les fichiers volumineux.
05

Paramétrer la mémoire efficacement

La mémoire et les préférences peuvent représenter 5 à 10 % de la consommation. Sans mémoire configurée, vous devez répéter votre contexte (métier, style, contraintes) à chaque conversation. Avec une mémoire bien structurée, une seule lecture suffit.

1
Aller dans Paramètres > Instructions globales
Renseignez votre métier, votre style de communication souhaité, vos préférences de formatage. Ce contexte sera disponible dans toutes les conversations.
2
Désactiver "Générer des souvenirs à partir des conversations"
Cette option enrichit automatiquement la mémoire après chaque échange, ce qui augmente progressivement la taille du contexte chargé. Désactivez-la sauf besoin spécifique.
3
Écrire une mémoire concise et structurée
Plus la mémoire est courte et précise, moins elle consomme de tokens à chaque chargement. Évitez les formulations verbeuses : allez à l'essentiel.
Décision personnelle : la fonctionnalité "Rechercher et référencer d'autres conversations" peut être utile, mais elle augmente la consommation. Activez-la uniquement si vous en avez un besoin concret.
06

Optimiser la rédaction des prompts

La manière dont vous formulez vos demandes influence directement le volume de tokens consommés. Trois principes clés permettent d'agir immédiatement.

🔗
Regrouper les demandes
Mettez toutes vos instructions dans un seul message plutôt qu'en plusieurs échanges successifs. Trois messages séparés peuvent atteindre 41 000 tokens, quand un message groupé équivalent en consomme beaucoup moins.
🗺️
Planifier avant d'exécuter
Pour les tâches complexes (rapport + Excel + PowerPoint), planifiez d'abord dans le chat (peu coûteux), puis allez dans Claude Code ou un outil d'exécution avec le plan déjà établi. La planification dans l'outil d'exécution coûte inutilement cher.
Laisser Claude poser des questions
Commencez par : "De quoi as-tu besoin pour répondre de façon optimale ?" Claude liste exactement les informations nécessaires. Vous évitez ainsi de surcharger le prompt avec des informations superflues.
Approche coûteuse
Message 1 : "Rédige un rapport sur..."
Message 2 : "Ajoute une section sur..."
Message 3 : "Reformule la conclusion..."

Résultat : 3 lectures complètes de l'historique
Approche optimisée
Un seul message : "Rédige un rapport sur X. Inclus une section Y. La conclusion doit Z."

Résultat : 1 seule lecture de contexte
07

Choisir le bon modèle

Tous les modèles Claude n'ont pas le même coût. Utiliser Opus pour des tâches banales revient à prendre un taxi pour traverser la rue. 90 % des tâches courantes peuvent être traitées par Haiku ou Sonnet.

Modèle Coût relatif Quand l'utiliser
Claude Haiku Très faible · ÷60 vs Opus Résumés rapides Reformulations Questions simples Tri de données FAQ
Claude Sonnet Modéré · ÷5 vs Opus Rédaction de rapports Analyse de données Code standard Traductions Présentations
Claude Opus Élevé · référence Architecture système Raisonnement complexe Relecture finale critique Code avancé
Recommandations additionnelles
Réflexion adaptative : ne l'activez pas par défaut. Réservez-la à Opus 4 pour des tâches de raisonnement véritablement complexes.
Heures creuses : en France, entre minuit et 14h, la charge serveur Anthropic est plus faible. Planifiez vos traitements intensifs le matin si possible.
Prototypage : commencez avec Sonnet dans le chat pour concevoir, puis basculez sur l'outil d'exécution seulement pour la production finale.
08

Désactiver les fonctionnalités inutiles

Claude charge et appelle automatiquement tous les connecteurs et outils activés, même s'ils ne sont pas utiles à la tâche en cours. Chaque serveur MCP activé représente 13 % de consommation supplémentaire, que Claude l'utilise ou non.

MCP inutilisés · à désactiver Recherche web si non nécessaire · à désactiver Artefacts IA · à désactiver si non utilisés Visualisations intégrées · à désactiver Génération de mémoire automatique · à désactiver
🔌
Connecteurs et MCP
Désactivez tous les connecteurs par défaut. Activez-les uniquement au moment où vous en avez besoin, puis désactivez-les après usage. Un MCP activé en permanence est un drain constant sur vos tokens.
⚙️
Skills et déclencheurs précis
Si vous utilisez des skills personnalisés, précisez des conditions de déclenchement strictes. Exemple : "Déclenche-toi seulement si le message contient le mot 'email'." Sans cela, Claude les appelle à chaque échange.
📂
Organisation des dossiers
Dans Claude Code ou les espaces de travail, évitez les dossiers avec de nombreux fichiers au premier niveau. Créez des sous-dossiers : Claude lit tous les fichiers d'un dossier à chaque accès.
Principe général : tout ce que Claude a en vue, il le charge. Moins il y a d'outils activés, moins il y a de chargement en coulisse, plus vos tokens vont à l'essentiel : votre réponse.

Checklist opérationnelle

Utilisez cette liste pour mettre en oeuvre les optimisations progressivement. Cochez au fur et à mesure de votre configuration.

Optimisation tokens · Claude
Configuration initiale
Structure de travail
Pratiques de conversation
Choix des modèles