Claude Opus 4.6: Warum MMLU und HumanEval nichts mehr über echte KI-Leistung aussagen – Das Ende der Standardmessung
Claude Opus 4.6 erreicht 91% auf MMLU. GPT-5.4 liegt bei 92%. Gemini 3.1 Pro irgendwo dazwischen. Die Zahlen klingen beeindruckend. Sie sind auch komplett bedeutungslos.
Nicht weil die Modelle schlecht wären – sondern weil der Test kaputt ist. MMLU,...
Weiterlesen →