Evaluation und Qualitätssicherung
KI-Systeme verhalten sich nicht deterministisch – die gleiche Eingabe kann unterschiedliche Ausgaben erzeugen. Umso wichtiger ist eine systematische Evaluation. Nur wer Qualität misst, kann sie verbessern. Hier lernst du, wie du LLM-Outputs testest, Halluzinationen erkennst und Regressionen verhinderst.
Warum Evaluation unverzichtbar ist
In klassischer Software schreibst du Unit-Tests und weißt, ob der Code funktioniert. Bei LLM-Anwendungen ist das komplexer: Outputs sind sprachlich variabel, Kontext beeinflusst Ergebnisse, und Modell-Updates können Verhalten ändern. Evaluation schließt diese Lücke.
Ohne Evaluation merkst du nicht, wenn eine Prompt-Änderung die Qualität verschlechtert, ein Modell-Update Seiteneffekte hat oder neue Daten zu unerwarteten Antworten führen.
Evaluationsmethoden
Automatisierte Evals
- Ground-Truth-VergleichErwartete Antworten mit tatsächlichen vergleichen. Metriken: Exact Match, F1, BLEU, ROUGE.
- LLM-as-JudgeEin zweites LLM bewertet die Qualität der Antworten nach definierten Kriterien.
- Schema-ValidierungPrüfen, ob strukturierte Outputs dem erwarteten Format entsprechen (JSON Schema).
Manuelle Evals
- Human ReviewStichproben von Experten bewerten lassen – besonders für kritische Anwendungen.
- A/B-TestingZwei Prompt-Varianten im Produktivbetrieb vergleichen.
- Feedback-LoopNutzer-Feedback sammeln und in Testdatensätze überführen.
Beispiel: Einfacher Eval-Test in Python
Monitoring im Produktivbetrieb
Evaluation endet nicht nach dem Deployment. Im laufenden Betrieb solltest du überwachen:
- Latenz: Wie schnell antworten Retriever und LLM?
- Token-Verbrauch: Kosten pro Anfrage und Trends über Zeit
- Fehlerrate: Wie oft scheitern Anfragen oder liefern leere Antworten?
- Relevanz-Score: Wie gut passen die abgerufenen Chunks zur Frage?
- Nutzer-Feedback: Daumen hoch/runter oder explizite Bewertungen
Passende Weiterbildung
Informatiker/in
Ein breites Informatik-Fundament hilft, Evaluationssysteme zu entwerfen und die richtigen Metriken zu wählen.
Kurs ansehen *Fachinformatiker/in – Anwendungsentwicklung
Testgetriebene Entwicklung und Qualitätssicherung sind Kernkompetenzen – auch für KI-Projekte.
Kurs ansehen *Python für Data Science & Machine Learning
Evaluations-Frameworks werden in Python geschrieben. Dieser Kurs schafft die Grundlage.
Kurs ansehen *