Prompt Caching: Anthropic Cache-Control für wiederkehrende Prompts #25

New issue

Open

opened 2026-03-30 19:46:57 +00:00 by David · 0 comments

David commented

2026-03-30 19:46:57 +00:00

Collaborator

Beschreibung

Anthropics cache_control Parameter für statische Prompt-Teile (System-Prompts, Scoring-Templates) aktivieren, um ~90% der Input-Token-Kosten einzusparen.

Hintergrund

Der Scoring-System-Prompt und die allgemeinen Anweisungen sind bei jedem Ticket identisch. Anthropic Prompt Caching reduziert Input-Token-Kosten von $3.00/M auf $0.30/M für gecachte Prefixe. Bei hunderten Tickets pro Woche summiert sich das erheblich.

Akzeptanzkriterien

Scoring-System-Prompt nutzt cache_control für den statischen Anteil
Preparation-LLM-Calls nutzen Caching für Repo-spezifische Kontextblöcke
Review-Agent-System-Prompt nutzt Caching
Cache-Hit-Rate wird getrackt und im Dashboard angezeigt
Messbare Kostenreduktion bei Input-Tokens (vorher/nachher Vergleich)

Technische Hinweise

Erweitern: backend/services/scoring_engine.py — cache_control: {type: 'ephemeral'} an System-Message
Erweitern: backend/services/preparation_engine.py — Caching für statische Prompt-Teile
Erweitern: backend/services/review_agent.py — Caching für Review-System-Prompt
Anthropic SDK unterstützt cache_control direkt im Messages-API-Call
Migration nötig: nein

Aufwand: S

## Beschreibung Anthropics `cache_control` Parameter für statische Prompt-Teile (System-Prompts, Scoring-Templates) aktivieren, um ~90% der Input-Token-Kosten einzusparen. ## Hintergrund Der Scoring-System-Prompt und die allgemeinen Anweisungen sind bei jedem Ticket identisch. Anthropic Prompt Caching reduziert Input-Token-Kosten von $3.00/M auf $0.30/M für gecachte Prefixe. Bei hunderten Tickets pro Woche summiert sich das erheblich. ## Akzeptanzkriterien - [ ] Scoring-System-Prompt nutzt `cache_control` für den statischen Anteil - [ ] Preparation-LLM-Calls nutzen Caching für Repo-spezifische Kontextblöcke - [ ] Review-Agent-System-Prompt nutzt Caching - [ ] Cache-Hit-Rate wird getrackt und im Dashboard angezeigt - [ ] Messbare Kostenreduktion bei Input-Tokens (vorher/nachher Vergleich) ## Technische Hinweise - Erweitern: `backend/services/scoring_engine.py` — `cache_control: {type: 'ephemeral'}` an System-Message - Erweitern: `backend/services/preparation_engine.py` — Caching für statische Prompt-Teile - Erweitern: `backend/services/review_agent.py` — Caching für Review-System-Prompt - Anthropic SDK unterstützt `cache_control` direkt im Messages-API-Call - Migration nötig: nein ## Aufwand: S