Model Routing: Kostenoptimierung durch modellspezifische LLM-Aufrufe #24

Closed
opened 2026-03-30 19:46:42 +00:00 by David · 1 comment
Collaborator

Beschreibung

Verschiedene LLM-Modelle für verschiedene Pipeline-Stufen einsetzen: günstige Modelle für einfache Aufgaben (Scoring, File-Selection), Frontier-Modelle nur für Code-Generierung.

Hintergrund

Aktuell nutzt das Scoring claude-sonnet — ein Frontier-Modell für eine Klassifikationsaufgabe. Industry-Benchmarks zeigen, dass Model Routing 87% Kostenreduktion erreicht, da 90% der Queries von kleineren Modellen bewältigt werden können. Bei 3-10x mehr LLM-Calls als normale Chatbot-Interaktionen (typisch für Agent-Pipelines) ist das entscheidend.

Akzeptanzkriterien

  • Scoring nutzt claude-haiku statt claude-sonnet (konfigurierbar)
  • File-Selection in der Preparation nutzt claude-haiku (konfigurierbar)
  • Review Agent nutzt claude-sonnet (konfigurierbar)
  • Code-Generierung (Claude Code CLI) bleibt auf Frontier-Modell
  • Modell pro Pipeline-Stufe ist über Config/Env konfigurierbar
  • Token-Verbrauch und Kosten werden pro Stufe separat getrackt
  • Qualität der Scoring-Ergebnisse bleibt vergleichbar (Validierung gegen Testset)

Technische Hinweise

  • Erweitern: backend/config.pySCORING_MODEL, PREPARATION_MODEL, REVIEW_MODEL (Env-Variablen)
  • Erweitern: backend/services/scoring_engine.py — Model aus Config statt hardcoded
  • Erweitern: backend/services/preparation_engine.py — Model aus Config
  • Erweitern: backend/services/review_agent.py — Model aus Config
  • Migration nötig: nein

Aufwand: S

## Beschreibung Verschiedene LLM-Modelle für verschiedene Pipeline-Stufen einsetzen: günstige Modelle für einfache Aufgaben (Scoring, File-Selection), Frontier-Modelle nur für Code-Generierung. ## Hintergrund Aktuell nutzt das Scoring `claude-sonnet` — ein Frontier-Modell für eine Klassifikationsaufgabe. Industry-Benchmarks zeigen, dass Model Routing 87% Kostenreduktion erreicht, da 90% der Queries von kleineren Modellen bewältigt werden können. Bei 3-10x mehr LLM-Calls als normale Chatbot-Interaktionen (typisch für Agent-Pipelines) ist das entscheidend. ## Akzeptanzkriterien - [ ] Scoring nutzt `claude-haiku` statt `claude-sonnet` (konfigurierbar) - [ ] File-Selection in der Preparation nutzt `claude-haiku` (konfigurierbar) - [ ] Review Agent nutzt `claude-sonnet` (konfigurierbar) - [ ] Code-Generierung (Claude Code CLI) bleibt auf Frontier-Modell - [ ] Modell pro Pipeline-Stufe ist über Config/Env konfigurierbar - [ ] Token-Verbrauch und Kosten werden pro Stufe separat getrackt - [ ] Qualität der Scoring-Ergebnisse bleibt vergleichbar (Validierung gegen Testset) ## Technische Hinweise - Erweitern: `backend/config.py` — `SCORING_MODEL`, `PREPARATION_MODEL`, `REVIEW_MODEL` (Env-Variablen) - Erweitern: `backend/services/scoring_engine.py` — Model aus Config statt hardcoded - Erweitern: `backend/services/preparation_engine.py` — Model aus Config - Erweitern: `backend/services/review_agent.py` — Model aus Config - Migration nötig: nein ## Aufwand: S
Author
Collaborator

Superseded by #89 (Knowledge Base, Similarity, Feedback, Anomaly Detection & Cost Tracking). Model Routing ist dort als Teilbereich abgedeckt.

Superseded by #89 (Knowledge Base, Similarity, Feedback, Anomaly Detection & Cost Tracking). Model Routing ist dort als Teilbereich abgedeckt.
David closed this issue 2026-03-30 20:39:16 +00:00
Sign in to join this conversation.
No description provided.