#benchmarks | Blog medina.consults.de

Claude Opus 4.6: Warum MMLU und HumanEval nichts mehr über echte KI-Leistung aussagen – Das Ende der Standardmessung

29.03.2026 12:18 #claude opus 4.6 #benchmarks #MMLU #HumanEval #AI evaluation #agentic AI #SWE-bench #ARC AGI

Claude Opus 4.6 erreicht 91% auf MMLU. GPT-5.4 liegt bei 92%. Gemini 3.1 Pro irgendwo dazwischen. Die Zahlen klingen beeindruckend. Sie sind auch komplett bedeutungslos. Nicht weil die Modelle schlecht wären – sondern weil der Test kaputt ist. MMLU,...

Weiterlesen →