Model Routing: Kostenoptimierung durch modellspezifische LLM-Aufrufe #24
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Beschreibung
Verschiedene LLM-Modelle für verschiedene Pipeline-Stufen einsetzen: günstige Modelle für einfache Aufgaben (Scoring, File-Selection), Frontier-Modelle nur für Code-Generierung.
Hintergrund
Aktuell nutzt das Scoring
claude-sonnet— ein Frontier-Modell für eine Klassifikationsaufgabe. Industry-Benchmarks zeigen, dass Model Routing 87% Kostenreduktion erreicht, da 90% der Queries von kleineren Modellen bewältigt werden können. Bei 3-10x mehr LLM-Calls als normale Chatbot-Interaktionen (typisch für Agent-Pipelines) ist das entscheidend.Akzeptanzkriterien
claude-haikustattclaude-sonnet(konfigurierbar)claude-haiku(konfigurierbar)claude-sonnet(konfigurierbar)Technische Hinweise
backend/config.py—SCORING_MODEL,PREPARATION_MODEL,REVIEW_MODEL(Env-Variablen)backend/services/scoring_engine.py— Model aus Config statt hardcodedbackend/services/preparation_engine.py— Model aus Configbackend/services/review_agent.py— Model aus ConfigAufwand: S
Superseded by #89 (Knowledge Base, Similarity, Feedback, Anomaly Detection & Cost Tracking). Model Routing ist dort als Teilbereich abgedeckt.