LLM-basierte File-Relevanz-Ranking in Preparation Engine #50

New issue

Open

opened 2026-03-30 19:56:47 +00:00 by David · 0 comments

David commented

2026-03-30 19:56:47 +00:00

Collaborator

Beschreibung

Die in der PROJEKT-SPEC (Abschnitt 2.2, Schritt 3c) beschriebene LLM-basierte Datei-Relevanz-Filterung implementieren. Aktuell gehen grep-Ergebnisse ungefiltert in die kontext.md.

Hintergrund

Die Preparation Engine findet relevante Dateien per grep -rl und git log. Das liefert oft 20-50+ Dateien, von denen nur 5-10 wirklich relevant sind. Die PROJEKT-SPEC beschreibt einen optionalen LLM-Call der aus den grep-Ergebnissen die Top 5-10 relevantesten Dateien bestimmt — das wurde nie implementiert.

Akzeptanzkriterien

Nach grep/git-log: LLM-Call der die gefundenen Dateien nach Relevanz ranked
Output: Top 5-10 Dateien mit Relevanz-Score und Begründung
Nur die geranked Dateien landen in der kontext.md
Günstiges Modell (Haiku) für den Ranking-Call
Konfigurierbar: FILE_RANKING_ENABLED, FILE_RANKING_MAX_FILES, FILE_RANKING_MODEL
Fallback auf ungefiltertes grep wenn LLM-Call fehlschlägt

Technische Hinweise

Erweitern: backend/services/preparation_engine.py — LLM-Call nach _find_relevant_files()
Neuer Prompt: backend/prompts/file_ranking_prompt.py
Nutzt günstiges Modell (Haiku) — Kosten pro Call minimal
Erweitern: backend/config.py — Feature-Flag + Konfiguration
Migration nötig: nein

Aufwand: M

## Beschreibung Die in der PROJEKT-SPEC (Abschnitt 2.2, Schritt 3c) beschriebene LLM-basierte Datei-Relevanz-Filterung implementieren. Aktuell gehen grep-Ergebnisse ungefiltert in die kontext.md. ## Hintergrund Die Preparation Engine findet relevante Dateien per `grep -rl` und `git log`. Das liefert oft 20-50+ Dateien, von denen nur 5-10 wirklich relevant sind. Die PROJEKT-SPEC beschreibt einen optionalen LLM-Call der aus den grep-Ergebnissen die Top 5-10 relevantesten Dateien bestimmt — das wurde nie implementiert. ## Akzeptanzkriterien - [ ] Nach grep/git-log: LLM-Call der die gefundenen Dateien nach Relevanz ranked - [ ] Output: Top 5-10 Dateien mit Relevanz-Score und Begründung - [ ] Nur die geranked Dateien landen in der kontext.md - [ ] Günstiges Modell (Haiku) für den Ranking-Call - [ ] Konfigurierbar: `FILE_RANKING_ENABLED`, `FILE_RANKING_MAX_FILES`, `FILE_RANKING_MODEL` - [ ] Fallback auf ungefiltertes grep wenn LLM-Call fehlschlägt ## Technische Hinweise - Erweitern: `backend/services/preparation_engine.py` — LLM-Call nach `_find_relevant_files()` - Neuer Prompt: `backend/prompts/file_ranking_prompt.py` - Nutzt günstiges Modell (Haiku) — Kosten pro Call minimal - Erweitern: `backend/config.py` — Feature-Flag + Konfiguration - Migration nötig: nein ## Aufwand: M