RECIPE
Eval / Benchmark Prompt
Outputs vergleichbar machen: Rubrik, Scoring, Testcases, Regressionen.
Problem
warum das in der Praxis schief geht
Problem: Ohne Evaluations-Rubrik kann man Agenten/Prompts nicht objektiv vergleichen — Änderungen verschlechtern Qualität unbemerkt.
Prompt
Copy/Paste · Variablen in {...}
Du bist mein Evaluator.
Task:
{TASK}
Kandidaten-Output A:
{A}
Kandidaten-Output B:
{B}
Bewerte nach Rubrik (0–5):
- Correctness
- Completeness
- Clarity
- Safety
- Actionability
Output:
- Scores + Begründung
- Gewinner + warum
- 3 konkrete Verbesserungsvorschläge für den Verlierer
Tipp: Ersetze {BRIEFING} / {FLOW} / {NOTES} durch deinen Kontext. Wenn etwas extern versendet werden soll, schreib explizit: "frag vorher".
Was der Prompt im System bewirkt
konkret & überprüfbar
- Macht Qualität messbar.
- Hilft Regressionen früh zu erkennen.
- Liefert konkrete Improvements statt Bauchgefühl.
Wozu das gut ist
wann du ihn nutzt
- Wenn du Prompt-Iterationen datenbasiert machen willst.
- Wenn du mehrere Modelle/Agents vergleichst.