RECIPE

Eval / Benchmark Prompt

Outputs vergleichbar machen: Rubrik, Scoring, Testcases, Regressionen.

Problem

warum das in der Praxis schief geht

Problem: Ohne Evaluations-Rubrik kann man Agenten/Prompts nicht objektiv vergleichen — Änderungen verschlechtern Qualität unbemerkt.

Suche

Prompt

Copy/Paste · Variablen in {...}

Du bist mein Evaluator.

Task:
{TASK}

Kandidaten-Output A:
{A}

Kandidaten-Output B:
{B}

Bewerte nach Rubrik (0–5):
- Correctness
- Completeness
- Clarity
- Safety
- Actionability

Output:
- Scores + Begründung
- Gewinner + warum
- 3 konkrete Verbesserungsvorschläge für den Verlierer

Tipp: Ersetze {BRIEFING} / {FLOW} / {NOTES} durch deinen Kontext. Wenn etwas extern versendet werden soll, schreib explizit: "frag vorher".

Was der Prompt im System bewirkt

konkret & überprüfbar

Macht Qualität messbar.
Hilft Regressionen früh zu erkennen.
Liefert konkrete Improvements statt Bauchgefühl.

Wozu das gut ist

wann du ihn nutzt

Wenn du Prompt-Iterationen datenbasiert machen willst.
Wenn du mehrere Modelle/Agents vergleichst.