Evaluation und Qualitätssicherung

KI-Systeme verhalten sich nicht deterministisch – die gleiche Eingabe kann unterschiedliche Ausgaben erzeugen. Umso wichtiger ist eine systematische Evaluation. Nur wer Qualität misst, kann sie verbessern. Hier lernst du, wie du LLM-Outputs testest, Halluzinationen erkennst und Regressionen verhinderst.

Warum Evaluation unverzichtbar ist

In klassischer Software schreibst du Unit-Tests und weißt, ob der Code funktioniert. Bei LLM-Anwendungen ist das komplexer: Outputs sind sprachlich variabel, Kontext beeinflusst Ergebnisse, und Modell-Updates können Verhalten ändern. Evaluation schließt diese Lücke.

Ohne Evaluation merkst du nicht, wenn eine Prompt-Änderung die Qualität verschlechtert, ein Modell-Update Seiteneffekte hat oder neue Daten zu unerwarteten Antworten führen.

Evaluationsmethoden

Automatisierte Evals

  • Ground-Truth-VergleichErwartete Antworten mit tatsächlichen vergleichen. Metriken: Exact Match, F1, BLEU, ROUGE.
  • LLM-as-JudgeEin zweites LLM bewertet die Qualität der Antworten nach definierten Kriterien.
  • Schema-ValidierungPrüfen, ob strukturierte Outputs dem erwarteten Format entsprechen (JSON Schema).

Manuelle Evals

  • Human ReviewStichproben von Experten bewerten lassen – besonders für kritische Anwendungen.
  • A/B-TestingZwei Prompt-Varianten im Produktivbetrieb vergleichen.
  • Feedback-LoopNutzer-Feedback sammeln und in Testdatensätze überführen.

Beispiel: Einfacher Eval-Test in Python

# Eval-Framework für RAG-Antworten import json   test_cases = [ { "query": "Wie lang ist die Kündigungsfrist?", "expected": "3 Monate zum Quartalsende", "source": "arbeitsvertrag.pdf, S. 4" }, { "query": "Gibt es Homeoffice-Regelungen?", "expected": "Ja, bis zu 3 Tage pro Woche", "source": "betriebsvereinbarung.pdf, S. 2" } ]   def run_eval(rag_pipeline, test_cases): results = [] for tc in test_cases: answer = rag_pipeline.query(tc["query"]) results.append({ "pass": tc["expected"] in answer.text, "has_source": tc["source"] in answer.citations, "query": tc["query"] }) return results

Monitoring im Produktivbetrieb

Evaluation endet nicht nach dem Deployment. Im laufenden Betrieb solltest du überwachen:

  • Latenz: Wie schnell antworten Retriever und LLM?
  • Token-Verbrauch: Kosten pro Anfrage und Trends über Zeit
  • Fehlerrate: Wie oft scheitern Anfragen oder liefern leere Antworten?
  • Relevanz-Score: Wie gut passen die abgerufenen Chunks zur Frage?
  • Nutzer-Feedback: Daumen hoch/runter oder explizite Bewertungen

Passende Weiterbildung

Informatiker/in

Ein breites Informatik-Fundament hilft, Evaluationssysteme zu entwerfen und die richtigen Metriken zu wählen.

Kurs ansehen *

Fachinformatiker/in – Anwendungsentwicklung

Testgetriebene Entwicklung und Qualitätssicherung sind Kernkompetenzen – auch für KI-Projekte.

Kurs ansehen *

Python für Data Science & Machine Learning

Evaluations-Frameworks werden in Python geschrieben. Dieser Kurs schafft die Grundlage.

Kurs ansehen *