Technical reference
Mise en cache des invites
La mise en cache des invites signifie que le fournisseur de modèle peut réutiliser des préfixes d’invite inchangés (généralement les instructions système/développeur et autre contexte stable) d’un tour à l’autre au lieu de les retraiter à chaque fois. OpenClaw normalise l’utilisation du fournisseur en cacheRead et cacheWrite lorsque l’API amont expose directement ces compteurs.
Les surfaces d’état peuvent également récupérer les compteurs de cache à partir du journal d’utilisation de la transcription la plus récente lorsque l’instantané de session en direct ne les contient pas, afin que /status puisse continuer à afficher une ligne de cache après une perte partielle des métadonnées de session. Les valeurs de cache en direct existantes non nulles restent prioritaires sur les valeurs de repli de la transcription.
Pourquoi c’est important : coût en jetons plus faible, réponses plus rapides et performances plus prévisibles pour les sessions de longue durée. Sans mise en cache, les invites répétées paient le coût complet de l’invite à chaque tour même lorsque la majeure partie de l’entrée n’a pas changé.
Les sections ci-dessous couvrent tous les paramètres liés au cache qui affectent la réutilisation des invites et le coût en jetons.
Références des fournisseurs :
- Mise en cache des invites Anthropic : https://platform.claude.com/docs/en/build-with-claude/prompt-caching
- Mise en cache des invites OpenAI : https://developers.openai.com/api/docs/guides/prompt-caching
- En-têtes d’API OpenAI et identifiants de requête : https://developers.openai.com/api/reference/overview
- Identifiants de requête et erreurs Anthropic : https://platform.claude.com/docs/en/api/errors
Paramètres principaux
cacheRetention (valeur par défaut globale, modèle et par agent)
Définissez la conservation du cache comme valeur par défaut globale pour tous les modèles :
agents:
defaults:
params:
cacheRetention: "long" # none | short | long
Remplacez par modèle :
agents:
defaults:
models:
"anthropic/claude-opus-4-6":
params:
cacheRetention: "short" # none | short | long
Remplacement par agent :
agents:
list:
- id: "alerts"
params:
cacheRetention: "none"
Ordre de fusion de la configuration :
agents.defaults.params(valeur par défaut globale — s’applique à tous les modèles)agents.defaults.models["provider/model"].params(remplacement par modèle)agents.list[].params(id d’agent correspondant ; remplace par clé)
contextPruning.mode: "cache-ttl"
Élague l’ancien contexte de résultat d’outil après les fenêtres TTL du cache afin que les requêtes après inactivité ne remettent pas en cache un historique surdimensionné.
agents:
defaults:
contextPruning:
mode: "cache-ttl"
ttl: "1h"
Voir Élagage de session pour le comportement complet.
Heartbeat keep-warm
Heartbeat peut maintenir les fenêtres de cache chaudes et réduire les écritures de cache répétées après des périodes d’inactivité.
agents:
defaults:
heartbeat:
every: "55m"
Heartbeat par agent est pris en charge dans agents.list[].heartbeat.
Comportement du fournisseur
Anthropic (API directe)
cacheRetentionest pris en charge.- Avec les profils d’authentification par clé API Anthropic, OpenClaw initialise
cacheRetention: "short"pour les références de modèle Anthropic lorsqu’elle n’est pas définie. - Les réponses natives Anthropic Messages exposent à la fois
cache_read_input_tokensetcache_creation_input_tokens, donc OpenClaw peut afficher à la foiscacheReadetcacheWrite. - Pour les requêtes Anthropic natives,
cacheRetention: "short"correspond au cache éphémère par défaut de 5 minutes, etcacheRetention: "long"passe au TTL d’1 heure uniquement sur les hôtes directsapi.anthropic.com.
OpenAI (API directe)
- La mise en cache des invites est automatique sur les modèles récents pris en charge. OpenClaw n’a pas besoin d’injecter des marqueurs de cache au niveau des blocs.
- OpenClaw utilise
prompt_cache_keypour garder un routage de cache stable d’un tour à l’autre et utiliseprompt_cache_retention: "24h"uniquement lorsquecacheRetention: "long"est sélectionné sur des hôtes OpenAI directs. - Les fournisseurs Completions compatibles OpenAI reçoivent
prompt_cache_keyuniquement lorsque leur configuration de modèle définit explicitementcompat.supportsPromptCacheKey: true;cacheRetention: "none"le supprime toujours. - Les réponses OpenAI exposent les jetons d’invite mis en cache via
usage.prompt_tokens_details.cached_tokens(ouinput_tokens_details.cached_tokenssur les événements de l’API Responses). OpenClaw l’associe àcacheRead. - OpenAI n’expose pas de compteur distinct de jetons d’écriture dans le cache, donc
cacheWritereste à0sur les chemins OpenAI même lorsque le fournisseur réchauffe un cache. - OpenAI renvoie des en-têtes utiles de traçage et de limitation de débit comme
x-request-id,openai-processing-msetx-ratelimit-*, mais le comptage des accès au cache doit provenir de la charge utile d’utilisation, pas des en-têtes. - En pratique, OpenAI se comporte souvent comme un cache de préfixe initial plutôt que comme la réutilisation mobile de l’historique complet de style Anthropic. Les tours avec un long préfixe stable peuvent atteindre un plateau proche de
4864jetons mis en cache dans les sondes en direct actuelles, tandis que les transcriptions riches en outils ou de type MCP plafonnent souvent près de4608jetons mis en cache même lors de répétitions exactes.
Anthropic Vertex
- Les modèles Anthropic sur Vertex AI (
anthropic-vertex/*) prennent en chargecacheRetentionde la même manière qu’Anthropic direct. cacheRetention: "long"correspond au vrai TTL de cache d’invite d’1 heure sur les points de terminaison Vertex AI.- La conservation du cache par défaut pour
anthropic-vertexcorrespond aux valeurs par défaut d’Anthropic direct. - Les requêtes Vertex sont routées via une mise en forme du cache tenant compte des frontières afin que la réutilisation du cache reste alignée avec ce que les fournisseurs reçoivent réellement.
Amazon Bedrock
- Les références de modèle Anthropic Claude (
amazon-bedrock/*anthropic.claude*) prennent en charge le passage explicite decacheRetention. - Les modèles Bedrock non Anthropic sont forcés à
cacheRetention: "none"à l’exécution.
Modèles OpenRouter
Pour les références de modèle openrouter/anthropic/*, OpenClaw injecte cache_control Anthropic sur les blocs d’invite système/développeur afin d’améliorer la réutilisation du cache d’invite uniquement lorsque la requête cible encore une route OpenRouter vérifiée (openrouter sur son point de terminaison par défaut, ou tout fournisseur/URL de base qui se résout vers openrouter.ai).
Pour les références de modèle openrouter/deepseek/*, openrouter/moonshot*/* et openrouter/zai/*, contextPruning.mode: "cache-ttl" est autorisé parce qu’OpenRouter gère automatiquement la mise en cache des invites côté fournisseur. OpenClaw n’injecte pas de marqueurs Anthropic cache_control dans ces requêtes.
La construction du cache DeepSeek est en mode best-effort et peut prendre quelques secondes. Un suivi immédiat peut encore afficher cached_tokens: 0 ; vérifiez avec une requête répétée avec le même préfixe après un court délai et utilisez usage.prompt_tokens_details.cached_tokens comme signal d’accès au cache.
Si vous redirigez le modèle vers une URL proxy compatible OpenAI arbitraire, OpenClaw cesse d’injecter ces marqueurs de cache Anthropic spécifiques à OpenRouter.
Autres fournisseurs
Si le fournisseur ne prend pas en charge ce mode de cache, cacheRetention n’a aucun effet.
API directe Google Gemini
- Le transport Gemini direct (
api: "google-generative-ai") signale les accès au cache viacachedContentTokenCounten amont ; OpenClaw l’associe àcacheRead. - Lorsque
cacheRetentionest définie sur un modèle Gemini direct, OpenClaw crée, réutilise et actualise automatiquement les ressourcescachedContentspour les invites système dans les exécutions Google AI Studio. Cela signifie que vous n’avez plus besoin de précréer manuellement un handle de contenu mis en cache. - Vous pouvez toujours transmettre un handle Gemini de contenu mis en cache existant via
params.cachedContent(ou l’ancienparams.cached_content) sur le modèle configuré. - Ceci est distinct de la mise en cache de préfixe d’invite Anthropic/OpenAI. Pour Gemini, OpenClaw gère une ressource
cachedContentsnative du fournisseur plutôt que d’injecter des marqueurs de cache dans la requête.
Utilisation JSON de Gemini CLI
- La sortie JSON de Gemini CLI peut également exposer les accès au cache via
stats.cached; OpenClaw l’associe àcacheRead. - Si le CLI omet une valeur directe
stats.input, OpenClaw dérive les jetons d’entrée à partir destats.input_tokens - stats.cached. - Il s’agit uniquement d’une normalisation de l’utilisation. Cela ne signifie pas qu’OpenClaw crée des marqueurs de cache d’invite de style Anthropic/OpenAI pour Gemini CLI.
Frontière de cache de l’invite système
OpenClaw divise l’invite système en un préfixe stable et un suffixe volatile séparés par une frontière interne de préfixe de cache. Le contenu au-dessus de la frontière (définitions d’outils, métadonnées de Skills, fichiers d’espace de travail et autre contexte relativement statique) est ordonné pour rester identique octet pour octet d’un tour à l’autre. Le contenu sous la frontière (par exemple HEARTBEAT.md, horodatages d’exécution et autres métadonnées par tour) peut changer sans invalider le préfixe mis en cache.
Choix de conception principaux :
- Les fichiers stables de contexte de projet de l’espace de travail sont ordonnés avant
HEARTBEAT.mdafin que les changements de Heartbeat n’invalident pas le préfixe stable. - La frontière s’applique à la mise en forme du cache des transports de la famille Anthropic, de la famille OpenAI, Google et CLI afin que tous les fournisseurs pris en charge bénéficient de la même stabilité de préfixe.
- Les requêtes Codex Responses et Anthropic Vertex sont routées via une mise en forme du cache tenant compte des frontières afin que la réutilisation du cache reste alignée avec ce que les fournisseurs reçoivent réellement.
- Les empreintes des invites système sont normalisées (espaces, fins de ligne, contexte ajouté par hook, ordre des capacités d’exécution) afin que des invites sémantiquement inchangées partagent le KV/cache d’un tour à l’autre.
Si vous constatez des pics inattendus de cacheWrite après un changement de configuration ou d’espace de travail, vérifiez si ce changement se situe au-dessus ou au-dessous de la frontière de cache. Déplacer le contenu volatile sous la frontière (ou le stabiliser) résout souvent le problème.
Garde-fous de stabilité du cache OpenClaw
OpenClaw conserve également plusieurs formes de charges utiles sensibles au cache déterministes avant que la requête n’atteigne le fournisseur :
- Les catalogues d’outils MCP groupés sont triés de manière déterministe avant l’enregistrement des outils, afin que les changements d’ordre de
listTools()ne modifient pas le bloc d’outils et n’invalident pas les préfixes du cache d’invite. - Les sessions héritées avec des blocs d’image persistants conservent intacts les 3 tours terminés les plus récents ; les anciens blocs d’image déjà traités peuvent être remplacés par un marqueur afin que les suivis riches en images ne renvoient pas en permanence de grandes charges utiles obsolètes.
Modèles d’ajustement
Trafic mixte (valeur par défaut recommandée)
Conservez une base de référence longue durée sur votre agent principal, désactivez la mise en cache sur les agents de notification en rafale :
agents:
defaults:
model:
primary: "anthropic/claude-opus-4-6"
models:
"anthropic/claude-opus-4-6":
params:
cacheRetention: "long"
list:
- id: "research"
default: true
heartbeat:
every: "55m"
- id: "alerts"
params:
cacheRetention: "none"
Base de référence orientée coût
- Définissez la base
cacheRetention: "short". - Activez
contextPruning.mode: "cache-ttl". - Gardez Heartbeat en dessous de votre TTL uniquement pour les agents qui bénéficient de caches chauds.
Diagnostics du cache
OpenClaw expose des diagnostics dédiés de traçage du cache pour les exécutions d’agents intégrés.
Pour les diagnostics normaux destinés aux utilisateurs, /status et d’autres résumés d’utilisation peuvent utiliser la dernière entrée d’utilisation de transcription comme source de repli pour cacheRead / cacheWrite lorsque l’entrée de session en direct ne contient pas ces compteurs.
Tests de régression en direct
OpenClaw conserve une porte unique combinée de régression de cache en direct pour les préfixes répétés, les tours d’outils, les tours d’images, les transcriptions d’outils de type MCP et un contrôle Anthropic sans cache.
src/agents/live-cache-regression.live.test.tssrc/agents/live-cache-regression-baseline.ts
Exécutez la porte en direct ciblée avec :
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_CACHE_TEST=1 pnpm test:live:cache
Le fichier de référence stocke les nombres observés en direct les plus récents ainsi que les seuils de régression spécifiques au fournisseur utilisés par le test. L’exécuteur utilise également de nouveaux identifiants de session par exécution et des espaces de noms d’invite afin que l’état de cache précédent ne pollue pas l’échantillon de régression actuel.
Ces tests n’utilisent intentionnellement pas des critères de réussite identiques selon les fournisseurs.
Attentes en direct Anthropic
- Attendez-vous à des écritures explicites d’échauffement via
cacheWrite. - Attendez-vous à une réutilisation quasi complète de l’historique sur les tours répétés, car le contrôle de cache Anthropic fait progresser le point d’arrêt du cache au fil de la conversation.
- Les assertions en direct actuelles utilisent encore des seuils de taux d’accès élevés pour les chemins stables, les outils et les images.
Attentes en direct OpenAI
- Attendez-vous à
cacheReaduniquement.cacheWritereste à0. - Traitez la réutilisation du cache sur les tours répétés comme un plateau spécifique au fournisseur, et non comme une réutilisation mobile de l’historique complet de style Anthropic.
- Les assertions en direct actuelles utilisent des vérifications de seuil conservatrices dérivées du comportement observé en direct sur
gpt-5.4-mini:- préfixe stable :
cacheRead >= 4608, taux d’accès>= 0.90 - transcription d’outil :
cacheRead >= 4096, taux d’accès>= 0.85 - transcription d’image :
cacheRead >= 3840, taux d’accès>= 0.82 - transcription de type MCP :
cacheRead >= 4096, taux d’accès>= 0.85
- préfixe stable :
La nouvelle vérification combinée en direct du 2026-04-04 a abouti à :
- préfixe stable :
cacheRead=4864, taux d’accès0.966 - transcription d’outil :
cacheRead=4608, taux d’accès0.896 - transcription d’image :
cacheRead=4864, taux d’accès0.954 - transcription de type MCP :
cacheRead=4608, taux d’accès0.891
Le temps récent en horloge murale locale pour la porte combinée était d’environ 88s.
Pourquoi les assertions diffèrent :
- Anthropic expose des points d’arrêt de cache explicites et une réutilisation mobile de l’historique de conversation.
- La mise en cache des invites OpenAI reste sensible au préfixe exact, mais le préfixe effectivement réutilisable dans le trafic Responses en direct peut plafonner avant l’invite complète.
- Pour cette raison, comparer Anthropic et OpenAI avec un seul seuil de pourcentage inter-fournisseurs crée de fausses régressions.
Configuration diagnostics.cacheTrace
diagnostics:
cacheTrace:
enabled: true
filePath: "~/.openclaw/logs/cache-trace.jsonl" # facultatif
includeMessages: false # true par défaut
includePrompt: false # true par défaut
includeSystem: false # true par défaut
Valeurs par défaut :
filePath:$OPENCLAW_STATE_DIR/logs/cache-trace.jsonlincludeMessages:trueincludePrompt:trueincludeSystem:true
Variables d’environnement (débogage ponctuel)
OPENCLAW_CACHE_TRACE=1active le traçage du cache.OPENCLAW_CACHE_TRACE_FILE=/path/to/cache-trace.jsonlremplace le chemin de sortie.OPENCLAW_CACHE_TRACE_MESSAGES=0|1active ou désactive la capture complète des charges utiles des messages.OPENCLAW_CACHE_TRACE_PROMPT=0|1active ou désactive la capture du texte de l’invite.OPENCLAW_CACHE_TRACE_SYSTEM=0|1active ou désactive la capture de l’invite système.
Que vérifier
- Les événements de traçage du cache sont en JSONL et incluent des instantanés intermédiaires comme
session:loaded,prompt:before,stream:contextetsession:after. - L’impact par tour des jetons de cache est visible dans les surfaces d’utilisation normales via
cacheReadetcacheWrite(par exemple/usage fullet les résumés d’utilisation de session). - Pour Anthropic, attendez-vous à voir à la fois
cacheReadetcacheWritelorsque la mise en cache est active. - Pour OpenAI, attendez-vous à
cacheReadlors des accès au cache et à ce quecacheWritereste à0; OpenAI ne publie pas de champ distinct de jetons d’écriture de cache. - Si vous avez besoin d’un traçage des requêtes, journalisez les identifiants de requête et les en-têtes de limitation de débit séparément des métriques de cache. La sortie actuelle de traçage du cache d’OpenClaw est centrée sur la forme de l’invite/session et l’utilisation normalisée des jetons plutôt que sur les en-têtes bruts de réponse du fournisseur.
Dépannage rapide
cacheWriteélevé sur la plupart des tours : vérifiez les entrées volatiles de l’invite système et confirmez que le modèle/fournisseur prend en charge vos paramètres de cache.cacheWriteélevé sur Anthropic : cela signifie souvent que le point d’arrêt du cache tombe sur un contenu qui change à chaque requête.cacheReadOpenAI faible : vérifiez que le préfixe stable est au début, que le préfixe répété fait au moins 1024 jetons et que le mêmeprompt_cache_keyest réutilisé pour les tours qui doivent partager un cache.- Aucun effet de
cacheRetention: confirmez que la clé du modèle correspond àagents.defaults.models["provider/model"]. - Requêtes Bedrock Nova/Mistral avec paramètres de cache : forçage attendu à l’exécution vers
none.
Documentation associée :