medina.consults.de
RECIPE

Eval / Benchmark Prompt

Outputs vergleichbar machen: Rubrik, Scoring, Testcases, Regressionen.

Problem

warum das in der Praxis schief geht

Problem: Ohne Evaluations-Rubrik kann man Agenten/Prompts nicht objektiv vergleichen — Änderungen verschlechtern Qualität unbemerkt.

Prompt

Copy/Paste · Variablen in {...}
Du bist mein Evaluator.

Task:
{TASK}

Kandidaten-Output A:
{A}

Kandidaten-Output B:
{B}

Bewerte nach Rubrik (0–5):
- Correctness
- Completeness
- Clarity
- Safety
- Actionability

Output:
- Scores + Begründung
- Gewinner + warum
- 3 konkrete Verbesserungsvorschläge für den Verlierer

Tipp: Ersetze {BRIEFING} / {FLOW} / {NOTES} durch deinen Kontext. Wenn etwas extern versendet werden soll, schreib explizit: "frag vorher".

Was der Prompt im System bewirkt

konkret & überprüfbar
  • Macht Qualität messbar.
  • Hilft Regressionen früh zu erkennen.
  • Liefert konkrete Improvements statt Bauchgefühl.

Wozu das gut ist

wann du ihn nutzt
  • Wenn du Prompt-Iterationen datenbasiert machen willst.
  • Wenn du mehrere Modelle/Agents vergleichst.