🌙 Tool des Moments — Entdecke interaktive Tools und Mini-Essays im Medina Lab.

Claude Opus 4.6: Warum MMLU und HumanEval nichts mehr über echte KI-Leistung aussagen – Das Ende der Standardmessung

Claude Opus 4.6 erreicht 91% auf MMLU. GPT-5.4 liegt bei 92%. Gemini 3.1 Pro irgendwo dazwischen. Die Zahlen klingen beeindruckend. Sie sind auch komplett bedeutungslos. Nicht weil die Modelle schlecht wären – sondern weil der Test kaputt ist. MMLU,...
Weiterlesen →