Model Routing: Kostenoptimierung durch modellspezifische LLM-Aufrufe #24

New issue

Closed

opened 2026-03-30 19:46:42 +00:00 by David · 1 comment

David commented

2026-03-30 19:46:42 +00:00

Collaborator

Beschreibung

Verschiedene LLM-Modelle für verschiedene Pipeline-Stufen einsetzen: günstige Modelle für einfache Aufgaben (Scoring, File-Selection), Frontier-Modelle nur für Code-Generierung.

Hintergrund

Aktuell nutzt das Scoring claude-sonnet — ein Frontier-Modell für eine Klassifikationsaufgabe. Industry-Benchmarks zeigen, dass Model Routing 87% Kostenreduktion erreicht, da 90% der Queries von kleineren Modellen bewältigt werden können. Bei 3-10x mehr LLM-Calls als normale Chatbot-Interaktionen (typisch für Agent-Pipelines) ist das entscheidend.

Akzeptanzkriterien

Scoring nutzt claude-haiku statt claude-sonnet (konfigurierbar)
File-Selection in der Preparation nutzt claude-haiku (konfigurierbar)
Review Agent nutzt claude-sonnet (konfigurierbar)
Code-Generierung (Claude Code CLI) bleibt auf Frontier-Modell
Modell pro Pipeline-Stufe ist über Config/Env konfigurierbar
Token-Verbrauch und Kosten werden pro Stufe separat getrackt
Qualität der Scoring-Ergebnisse bleibt vergleichbar (Validierung gegen Testset)

Technische Hinweise

Erweitern: backend/config.py — SCORING_MODEL, PREPARATION_MODEL, REVIEW_MODEL (Env-Variablen)
Erweitern: backend/services/scoring_engine.py — Model aus Config statt hardcoded
Erweitern: backend/services/preparation_engine.py — Model aus Config
Erweitern: backend/services/review_agent.py — Model aus Config
Migration nötig: nein

Aufwand: S

## Beschreibung Verschiedene LLM-Modelle für verschiedene Pipeline-Stufen einsetzen: günstige Modelle für einfache Aufgaben (Scoring, File-Selection), Frontier-Modelle nur für Code-Generierung. ## Hintergrund Aktuell nutzt das Scoring `claude-sonnet` — ein Frontier-Modell für eine Klassifikationsaufgabe. Industry-Benchmarks zeigen, dass Model Routing 87% Kostenreduktion erreicht, da 90% der Queries von kleineren Modellen bewältigt werden können. Bei 3-10x mehr LLM-Calls als normale Chatbot-Interaktionen (typisch für Agent-Pipelines) ist das entscheidend. ## Akzeptanzkriterien - [ ] Scoring nutzt `claude-haiku` statt `claude-sonnet` (konfigurierbar) - [ ] File-Selection in der Preparation nutzt `claude-haiku` (konfigurierbar) - [ ] Review Agent nutzt `claude-sonnet` (konfigurierbar) - [ ] Code-Generierung (Claude Code CLI) bleibt auf Frontier-Modell - [ ] Modell pro Pipeline-Stufe ist über Config/Env konfigurierbar - [ ] Token-Verbrauch und Kosten werden pro Stufe separat getrackt - [ ] Qualität der Scoring-Ergebnisse bleibt vergleichbar (Validierung gegen Testset) ## Technische Hinweise - Erweitern: `backend/config.py` — `SCORING_MODEL`, `PREPARATION_MODEL`, `REVIEW_MODEL` (Env-Variablen) - Erweitern: `backend/services/scoring_engine.py` — Model aus Config statt hardcoded - Erweitern: `backend/services/preparation_engine.py` — Model aus Config - Erweitern: `backend/services/review_agent.py` — Model aus Config - Migration nötig: nein ## Aufwand: S