Prompt Caching: Anthropic Cache-Control für wiederkehrende Prompts #25

Open
opened 2026-03-30 19:46:57 +00:00 by David · 0 comments
Collaborator

Beschreibung

Anthropics cache_control Parameter für statische Prompt-Teile (System-Prompts, Scoring-Templates) aktivieren, um ~90% der Input-Token-Kosten einzusparen.

Hintergrund

Der Scoring-System-Prompt und die allgemeinen Anweisungen sind bei jedem Ticket identisch. Anthropic Prompt Caching reduziert Input-Token-Kosten von $3.00/M auf $0.30/M für gecachte Prefixe. Bei hunderten Tickets pro Woche summiert sich das erheblich.

Akzeptanzkriterien

  • Scoring-System-Prompt nutzt cache_control für den statischen Anteil
  • Preparation-LLM-Calls nutzen Caching für Repo-spezifische Kontextblöcke
  • Review-Agent-System-Prompt nutzt Caching
  • Cache-Hit-Rate wird getrackt und im Dashboard angezeigt
  • Messbare Kostenreduktion bei Input-Tokens (vorher/nachher Vergleich)

Technische Hinweise

  • Erweitern: backend/services/scoring_engine.pycache_control: {type: 'ephemeral'} an System-Message
  • Erweitern: backend/services/preparation_engine.py — Caching für statische Prompt-Teile
  • Erweitern: backend/services/review_agent.py — Caching für Review-System-Prompt
  • Anthropic SDK unterstützt cache_control direkt im Messages-API-Call
  • Migration nötig: nein

Aufwand: S

## Beschreibung Anthropics `cache_control` Parameter für statische Prompt-Teile (System-Prompts, Scoring-Templates) aktivieren, um ~90% der Input-Token-Kosten einzusparen. ## Hintergrund Der Scoring-System-Prompt und die allgemeinen Anweisungen sind bei jedem Ticket identisch. Anthropic Prompt Caching reduziert Input-Token-Kosten von $3.00/M auf $0.30/M für gecachte Prefixe. Bei hunderten Tickets pro Woche summiert sich das erheblich. ## Akzeptanzkriterien - [ ] Scoring-System-Prompt nutzt `cache_control` für den statischen Anteil - [ ] Preparation-LLM-Calls nutzen Caching für Repo-spezifische Kontextblöcke - [ ] Review-Agent-System-Prompt nutzt Caching - [ ] Cache-Hit-Rate wird getrackt und im Dashboard angezeigt - [ ] Messbare Kostenreduktion bei Input-Tokens (vorher/nachher Vergleich) ## Technische Hinweise - Erweitern: `backend/services/scoring_engine.py` — `cache_control: {type: 'ephemeral'}` an System-Message - Erweitern: `backend/services/preparation_engine.py` — Caching für statische Prompt-Teile - Erweitern: `backend/services/review_agent.py` — Caching für Review-System-Prompt - Anthropic SDK unterstützt `cache_control` direkt im Messages-API-Call - Migration nötig: nein ## Aufwand: S
Sign in to join this conversation.
No description provided.