Evaluation und Qualitätssicherung

KI-Systeme verhalten sich nicht deterministisch – die gleiche Eingabe kann unterschiedliche Ausgaben erzeugen. Umso wichtiger ist eine systematische Evaluation. Nur wer Qualität misst, kann sie verbessern. Hier lernst du, wie du LLM-Outputs testest, Halluzinationen erkennst und Regressionen verhinderst.

Warum Evaluation unverzichtbar ist

In klassischer Software schreibst du Unit-Tests und weißt, ob der Code funktioniert. Bei LLM-Anwendungen ist das komplexer: Outputs sind sprachlich variabel, Kontext beeinflusst Ergebnisse, und Modell-Updates können Verhalten ändern. Evaluation schließt diese Lücke.

Ohne Evaluation merkst du nicht, wenn eine Prompt-Änderung die Qualität verschlechtert, ein Modell-Update Seiteneffekte hat oder neue Daten zu unerwarteten Antworten führen.

Evaluationsmethoden

Automatisierte Evals

Ground-Truth-VergleichErwartete Antworten mit tatsächlichen vergleichen. Metriken: Exact Match, F1, BLEU, ROUGE.
LLM-as-JudgeEin zweites LLM bewertet die Qualität der Antworten nach definierten Kriterien.
Schema-ValidierungPrüfen, ob strukturierte Outputs dem erwarteten Format entsprechen (JSON Schema).

Manuelle Evals

Human ReviewStichproben von Experten bewerten lassen – besonders für kritische Anwendungen.
A/B-TestingZwei Prompt-Varianten im Produktivbetrieb vergleichen.
Feedback-LoopNutzer-Feedback sammeln und in Testdatensätze überführen.

Beispiel: Einfacher Eval-Test in Python

            # Eval-Framework für RAG-Antworten
            import json
             
            test_cases = [
                {
                    "query": "Wie lang ist die Kündigungsfrist?",
                    "expected": "3 Monate zum Quartalsende",
                    "source": "arbeitsvertrag.pdf, S. 4"
                },
                {
                    "query": "Gibt es Homeoffice-Regelungen?",
                    "expected": "Ja, bis zu 3 Tage pro Woche",
                    "source": "betriebsvereinbarung.pdf, S. 2"
                }
            ]
             
            def run_eval(rag_pipeline, test_cases):
                results = []
                for tc in test_cases:
                    answer = rag_pipeline.query(tc["query"])
                    results.append({
                        "pass": tc["expected"] in answer.text,
                        "has_source": tc["source"] in answer.citations,
                        "query": tc["query"]
                    })
                return results
          

Monitoring im Produktivbetrieb

Evaluation endet nicht nach dem Deployment. Im laufenden Betrieb solltest du überwachen:

Latenz: Wie schnell antworten Retriever und LLM?
Token-Verbrauch: Kosten pro Anfrage und Trends über Zeit
Fehlerrate: Wie oft scheitern Anfragen oder liefern leere Antworten?
Relevanz-Score: Wie gut passen die abgerufenen Chunks zur Frage?
Nutzer-Feedback: Daumen hoch/runter oder explizite Bewertungen

Passende Weiterbildung

Informatiker/in

Ein breites Informatik-Fundament hilft, Evaluationssysteme zu entwerfen und die richtigen Metriken zu wählen.

Kurs ansehen *

Fachinformatiker/in – Anwendungsentwicklung

Testgetriebene Entwicklung und Qualitätssicherung sind Kernkompetenzen – auch für KI-Projekte.

Kurs ansehen *

Python für Data Science & Machine Learning

Evaluations-Frameworks werden in Python geschrieben. Dieser Kurs schafft die Grundlage.

Kurs ansehen *

Evaluation und Qualitätssicherung

Warum Evaluation unverzichtbar ist

Evaluationsmethoden

Automatisierte Evals

Manuelle Evals

Beispiel: Einfacher Eval-Test in Python

Monitoring im Produktivbetrieb

Passende Weiterbildung

Informatiker/in

Fachinformatiker/in – Anwendungsentwicklung

Python für Data Science & Machine Learning

Weitere Themen