Claude Opus 4.6: Warum MMLU und HumanEval nichts mehr über echte KI-Leistung aussagen – Das Ende der Standardmessung
Claude Opus 4.6 erreicht 91% auf MMLU. GPT-5.4 liegt bei 92%. Gemini 3.1 Pro irgendwo dazwischen. Die Zahlen klingen beeindruckend. Sie sind auch komplett bedeutungslos.
Nicht weil die Modelle schlecht wären – sondern weil der Test kaputt ist. MMLU, HumanEval, GSM8K: Die Benchmarks, mit denen die KI-Industrie seit Jahren ihre Fortschritte misst, sind gesättigt. Sie unterscheiden nicht mehr zwischen gut und besser. Sie unterscheiden nur noch zwischen bestanden und bestanden. [1]
Das Problem ist nicht akademisch. Es betrifft jeden, der auf Basis dieser Zahlen Entscheidungen trifft – welches Modell er einsetzt, wofür er zahlt, worauf er baut.
Die Sättigung: Wenn alle die Bestnote haben
MMLU – Massive Multitask Language Understanding – wurde 2020 als Goldstandard eingeführt. 16.000 Multiple-Choice-Fragen aus 57 Fachgebieten, von Philosophie bis Medizin. Damals erreichten die besten Modelle knapp 50%. Die Idee war simpel: Wer hier gut abschneidet, versteht die Welt.
Fünf Jahre später liegen alle Frontier-Modelle über 90%. Claude Opus 4.6 bei 91%, auf MMLU-Pro (der erweiterten Variante mit zehn statt vier Antwortmöglichkeiten) bei 82%. [2] Die Unterschiede zwischen den Top-Modellen bewegen sich im Bereich statistischer Varianz. Wer heute noch MMLU als Leistungsindikator nutzt, vergleicht Sprinter anhand ihrer Fähigkeit, aufrecht zu stehen.
Dasselbe Bild bei HumanEval, dem Standard-Coding-Benchmark: Die besten Modelle lösen über 90% der Aufgaben. Bei GSM8K, dem mathematischen Reasoning-Test, sieht es nicht anders aus. Diese Benchmarks haben ihren Zweck erfüllt – und genau deshalb sind sie jetzt nutzlos für die Unterscheidung zwischen Frontier-Modellen. [3]
Das Post-Training macht heute rund 80% der Rechenleistung beim Training von LLMs aus. Die Modelle werden nicht mehr grundlegend schlauer – sie werden auf spezifische Domänen optimiert. Ein Modell, das bei Coding brilliert, kann bei Schach-Puzzles versagen. Claude Sonnet 4.5 erreichte vor fünf Monaten 12% in einem Schach-Benchmark; das neuere Claude Opus 4.6 nur 10%. GPT-5.2 liegt bei 50%. [4]
MMLU misst keine dieser Nuancen. Es misst akademisches Wissen in einem Multiple-Choice-Format, das mit der realen Nutzung von KI-Modellen praktisch nichts zu tun hat.
Die Kontaminations-Lüge
Es gibt ein zweites, weniger diskutiertes Problem: Datenkontamination. Benchmarks wie MMLU und HumanEval existieren seit Jahren als öffentlich zugängliche Datensätze. Die Wahrscheinlichkeit, dass Teile dieser Testfragen in den Trainingsdaten moderner Modelle auftauchen, ist nicht theoretisch – sie ist statistisch unvermeidlich.
Das bedeutet nicht, dass die Modelle „schummeln" im klassischen Sinn. Aber wenn ein Modell während des Trainings Varianten der Testfragen gesehen hat, misst der Benchmark nicht mehr Reasoning-Fähigkeit, sondern Pattern-Matching auf bekanntem Material. Der Unterschied ist fundamental.
Neuere Benchmarks adressieren dieses Problem direkt. LiveCodeBench etwa fügt monatlich neue Programmieraufgaben aus Wettbewerbsplattformen hinzu. SWE-bench Verified nutzt echte GitHub-Issues aus Open-Source-Projekten – Probleme, die erst nach dem Training der Modelle entstanden sind. [5]
Der Punkt ist: Statische Benchmarks sind in einer Welt, in der Modelle auf Billionen von Tokens trainiert werden, konzeptuell gebrochen. Jeder Test, der lange genug öffentlich existiert, wird zum Trainingsmaterial.
Was Benchmarks 2026 wirklich messen müssten
Die Modelle von 2026 sind keine besseren Textgeneratoren. Sie sind Agenten. Sie navigieren Codebasen, interagieren mit APIs, treffen Entscheidungen in mehrstufigen Workflows. MMLU misst davon nichts.
Die relevanten Fähigkeiten heute sind:
Agentisches Verhalten: Kann das Modell einen komplexen Task über mehrere Schritte planen, ausführen und bei Fehlern korrigieren? Terminal-Bench 2.0 und SWE-bench Verified testen genau das – und hier zeigen sich die echten Unterschiede. Claude Opus 4.6 führt bei Terminal-Bench 2.0, GPT-5.3 Codex bei SWE-bench. Die Rankings sind komplett andere als bei MMLU. [6]
Kontextuelles Verständnis über lange Strecken: Ein 1-Million-Token-Kontextfenster klingt beeindruckend. Aber kann das Modell Information aus Token 50.000 zuverlässig mit Information aus Token 900.000 verknüpfen? Die Needle-in-a-Haystack-Tests zeigen: Die Qualität des Kontextverständnisses variiert massiv, auch bei identischer Fenstergröße. [7]
Zuverlässigkeit in dynamischen Umgebungen: Kein MMLU-Test simuliert, was passiert, wenn ein Agent auf einen unerwarteten Fehler stößt, eine API sich ändert oder ein Zwischenergebnis vom erwarteten Pfad abweicht. Genau das ist aber der Alltag im Produktiveinsatz.
Kosten pro gelöster Aufgabe: ARC AGI 2 hat eine entscheidende Metrik eingeführt – nicht nur ob ein Modell eine Aufgabe löst, sondern zu welchem Preis. GPT-5.4 Pro Extra High erreicht 72% bei ARC AGI 2, aber zu Kosten von 39 Dollar pro Aufgabe. [8] Ein Modell, das 60% bei einem Zehntel der Kosten schafft, ist in der Praxis oft die bessere Wahl.
Die neuen Messinstrumente
Die Benchmark-Landschaft 2026 ist fragmentiert – und das ist gut so. Statt eines einzelnen Scores, der alles abbilden soll, entsteht ein Ökosystem spezialisierter Tests:
ARC AGI 3 – der gerade erst vorgestellte, erste interaktive AGI-Benchmark. Kein Multiple-Choice, keine vorgegebenen Antworten. Das Modell wird in eine unbekannte Umgebung geworfen und muss durch Interaktion die Regeln deduzieren. Menschen lösen diese Aufgaben zu fast 100%. Frontier-Modelle versagen nahezu vollständig. Das 2-Millionen-Dollar-Preisgeld für die erste „Sättigung" des Benchmarks dürfte lange unangetastet bleiben. [8]
Humanity's Last Exam – 2.500 Fragen auf absolutem Expertenniveau, entwickelt von Fachleuten aus verschiedenen Disziplinen. Hier führt Claude Opus 4.6 unter allen Frontier-Modellen. [6]
GDPval-AA – ein Benchmark für wirtschaftlich relevante Wissensarbeit. Misst nicht Textverständnis, sondern ob ein Modell tatsächlich wertschöpfende Aufgaben lösen kann, die im Berufsalltag anfallen. Opus 4.6 übertrifft GPT-5.2 hier mit einem ELO-Vorsprung von rund 140 Punkten. [9]
DPAI Arena – evaluiert KI-Agenten über den gesamten Softwareentwicklungszyklus: Patching, Tests generieren, Pull Requests reviewen, statische Analyse durchführen, fremde Repositories navigieren. [10]
Chatbot Arena von LMSYS – der vielleicht ehrlichste Ansatz: Echte Nutzer vergleichen anonyme Modellausgaben blind. Keine curated Testsets, keine optimierbaren Metriken. Aber auch hier gibt es Bias-Probleme: Wer votet, welche Prompts gewählt werden und wie oft Modelle aufeinandertreffen, beeinflusst die Rankings. [11]
Warum dein Nutzungserlebnis von den Scores abweicht
Wenn du das Gefühl hast, dass die offiziellen Benchmark-Scores nicht mit deiner täglichen Erfahrung übereinstimmen – dann liegst du richtig.
Drei Gründe dafür:
Domain-Spezialisierung schlägt Gesamtscore. Dario Amodei von Anthropic argumentiert, dass Spezialisierung auf viele einzelne Domänen zu einer Form von Generalisierung führt. In der Praxis bedeutet das: Jedes Modell hat seine Nischen. Claude Opus 4.6 ist in agentischen Coding-Tasks und Langzeit-Reasoning stark. GPT-5.4 dominiert bei bestimmten Terminal-Aufgaben. Gemini 3.1 Pro führt bei ARC AGI 2. [4] Kein einzelner Score bildet das ab.
Benchmarks messen nicht Zuverlässigkeit. Ein Modell, das 90% der Aufgaben perfekt löst und bei 10% halluziniert, hat einen anderen Praxiswert als eines, das 85% löst und bei den restlichen 15% zumindest kein falsches Ergebnis liefert. Halluzinationen sind nach wie vor ein ungelöstes Problem – und kein Benchmark misst systematisch die Worst-Case-Performance eines Modells. [4]
Prompt-Engineering verzerrt alles. Die Benchmark-Ergebnisse werden unter optimalen Bedingungen erzielt – mit sorgfältig formulierten Prompts, oft mit Chain-of-Thought-Techniken. Dein Alltags-Prompt „Schreib mir eine Funktion, die X macht" ist nicht dasselbe wie ein akademisch optimierter Benchmark-Prompt. Die Lücke zwischen den beiden ist real und messbar.
Wie du KI-Modelle stattdessen bewerten solltest
Vergiss den einen Score. Stattdessen:
Teste in deiner Domäne. Wenn du Code schreibst, ist SWE-bench relevanter als MMLU. Wenn du Recherche machst, schau auf GDPval. Wenn du mit langen Dokumenten arbeitest, teste das Kontextverständnis mit deinen eigenen Daten. Die universelle Rangliste gibt es nicht – weil es den universellen Anwendungsfall nicht gibt.
Messe Kosten und Geschwindigkeit mit. Claude Opus 4.6 braucht für eine HTML-Coding-Aufgabe 2-3 Minuten, GPT-5.4 Thinking rund 20 Minuten für dasselbe Ergebnis. [12] Dieser Faktor taucht in keinem Benchmark auf, ist aber in der Praxis entscheidend.
Nutze die Arena-Methode. Gib zwei Modellen dieselbe Aufgabe aus deinem echten Workflow. Bewerte das Ergebnis blind. Wiederhole das 20 Mal. Dein eigenes Mini-Benchmark ist aussagekräftiger als jede offizielle Rangliste – weil es genau das misst, was du brauchst.
Beobachte die Fehler, nicht die Erfolge. Ein Modell zeigt seinen wahren Charakter nicht bei den Aufgaben, die es löst, sondern bei denen, an denen es scheitert. Wie es scheitert – graceful oder katastrophal – sagt mehr über seine Produktionsreife aus als jeder Prozentpunkt auf MMLU.
Das Ende der einfachen Antworten
Die Ära, in der ein einzelner Benchmark-Score die Frage „Welches Modell ist das beste?" beantworten konnte, ist vorbei. Sie war es vermutlich nie – aber bei 50% MMLU-Scores war das weniger offensichtlich als bei 91%.
Was kommt danach? Eine fragmentierte, spezialisierte Bewertungslandschaft, die der fragmentierten, spezialisierten Modelllandschaft entspricht. ARC AGI 3 für Generalisierung. Terminal-Bench für agentisches Coding. GDPval für Wissensarbeit. Chatbot Arena für das Bauchgefühl der breiten Masse.
Und vor allem: Eigene Tests. Denn die einzig relevante Frage war nie „Welches Modell ist das beste?", sondern „Welches Modell ist das beste für das, was ich damit mache?"
MMLU kann diese Frage nicht beantworten. Konnte es nie. Jetzt ist es nur offensichtlicher.
Referenzen
- LLM Benchmarks Compared: MMLU, HumanEval, GSM8K and More (2026), LXT
https://www.lxt.ai/blog/llm-benchmarks/ - Einführung von Claude Opus 4.6, Anthropic
https://www.anthropic.com/news/claude-opus-4-6 - AI Benchmarks Explained: MMLU, HumanEval & More (2026), StackViv
https://stackviv.ai/blog/ai-model-benchmarks-mmlu-humaneval - Gemini 3.1 Pro and the Downfall of Benchmarks: Welcome to the Vibe Era of AI (YouTube)
https://www.youtube.com/watch?v=2_DPnzoiHaY - LiveCodeBench Benchmark Leaderboard, Artificial Analysis
https://artificialanalysis.ai/evaluations/livecodebench - Einführung von Claude Opus 4.6: Benchmarks Terminal-Bench 2.0 und Humanity's Last Exam, Anthropic
https://www.anthropic.com/news/claude-opus-4-6 - Einführung von Claude Sonnet 4.6: 1-Million-Token-Kontextfenster, Anthropic
https://www.anthropic.com/news/claude-sonnet-4-6 - ARC AGI 3 just dropped, what it means for AGI (YouTube)
https://www.youtube.com/watch?v=UkCfrNTzUMM - The Two Best AI Models/Enemies Just Got Released Simultaneously – Claude Opus 4.6 vs. GPT 5.3 (YouTube)
https://www.youtube.com/watch?v=1PxEziv5XIU - 8 benchmarks shaping the next generation of AI agents, Tessl
https://tessl.io/blog/8-benchmarks-shaping-the-next-generation-of-ai-agents/ - Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings, LMSYS
https://lmsys.org/blog/2023-05-03-arena/ - GPT-5.4: Es ist VORBEI für OpenAI! Claude Code, Google AI Center Eröffnung & weitere KI-News (YouTube, Everlast AI)
https://www.youtube.com/watch?v=3jGeOut5HWk