Scoring-Prompt: Confidence-Scores für LLM-Bewertungen einführen #49

Closed
opened 2026-03-30 19:56:29 +00:00 by David · 1 comment
Collaborator

Beschreibung

Der Scoring-Prompt um Confidence-Scores erweitern, damit erkennbar ist wie sicher sich das LLM bei seiner Bewertung ist. Niedrig-Confidence-Scores sollten anders behandelt werden als Hochsichere.

Hintergrund

Der Scoring-Prompt liefert Scores (0-100) für drei Dimensionen, aber keine Information über die Unsicherheit der Bewertung. Ein Score von 65 mit hoher Confidence ist anders zu behandeln als 65 mit niedriger Confidence (z.B. weil das Ticket mehrdeutig ist).

Akzeptanzkriterien

  • LLM-Response enthält pro Dimension zusätzlich confidence: "high" | "medium" | "low"
  • Bei low Confidence in einer kritischen Dimension: Ticket automatisch als Klärfall markieren (unabhängig vom Score)
  • Confidence wird in score_details JSON gespeichert
  • Dashboard zeigt Confidence-Indikator neben den Scores
  • Konfigurierbar: LOW_CONFIDENCE_FORCES_KLAERFALL (Default: true)

Technische Hinweise

  • Fix in: backend/prompts/scoring_prompt.py — JSON-Schema um confidence Feld erweitern
  • Erweitern: backend/services/scoring_engine.py — Confidence auswerten bei Klassifikation
  • Erweitern: frontend/src/components/ScoreDisplay.tsx — Confidence-Anzeige
  • Migration nötig: nein (Confidence wird in bestehendem score_details JSON gespeichert)

Aufwand: S

## Beschreibung Der Scoring-Prompt um Confidence-Scores erweitern, damit erkennbar ist wie sicher sich das LLM bei seiner Bewertung ist. Niedrig-Confidence-Scores sollten anders behandelt werden als Hochsichere. ## Hintergrund Der Scoring-Prompt liefert Scores (0-100) für drei Dimensionen, aber keine Information über die Unsicherheit der Bewertung. Ein Score von 65 mit hoher Confidence ist anders zu behandeln als 65 mit niedriger Confidence (z.B. weil das Ticket mehrdeutig ist). ## Akzeptanzkriterien - [ ] LLM-Response enthält pro Dimension zusätzlich `confidence: "high" | "medium" | "low"` - [ ] Bei `low` Confidence in einer kritischen Dimension: Ticket automatisch als Klärfall markieren (unabhängig vom Score) - [ ] Confidence wird in `score_details` JSON gespeichert - [ ] Dashboard zeigt Confidence-Indikator neben den Scores - [ ] Konfigurierbar: `LOW_CONFIDENCE_FORCES_KLAERFALL` (Default: true) ## Technische Hinweise - Fix in: `backend/prompts/scoring_prompt.py` — JSON-Schema um `confidence` Feld erweitern - Erweitern: `backend/services/scoring_engine.py` — Confidence auswerten bei Klassifikation - Erweitern: `frontend/src/components/ScoreDisplay.tsx` — Confidence-Anzeige - Migration nötig: nein (Confidence wird in bestehendem `score_details` JSON gespeichert) ## Aufwand: S
Author
Collaborator

Superseded by #88 (Post-Merge Verification & Automated Testing). Confidence-Scoring ist dort als Teilbereich abgedeckt.

Superseded by #88 (Post-Merge Verification & Automated Testing). Confidence-Scoring ist dort als Teilbereich abgedeckt.
David closed this issue 2026-03-30 20:39:17 +00:00
Sign in to join this conversation.
No description provided.