AI Benchmarks: Der ökonomische Blackout – Warum die Branche den Energieverbrauch ihrer Tests verschweigt
Ein Modell erreicht 92% auf MMLU. Ein anderes 37,5% auf Humanity's Last Exam. Ein drittes verdoppelt den ARC-AGI-2-Score seines Vorgängers. Die Leaderboards füllen sich, die Pressemitteilungen überschlagen sich, die Investoren nicken zufrieden. Was in keiner einzigen dieser Meldungen steht: Wie viel Strom dafür verbraucht wurde.
Nicht wie viel das Training gekostet hat – das ist ein separates, inzwischen bekanntes Problem. Sondern wie viel Energie allein der Benchmark-Durchlauf selbst verschlingt. Die Inferenz-Kosten, multipliziert mit hunderten oder tausenden Wiederholungen, unter verschiedenen Parametern, mit aktiviertem Test-Time-Compute. Diese Zahl existiert bei jedem Anbieter. Kein einziger veröffentlicht sie. [1]
Das ist kein Zufall. Es ist ein System.
Benchmark-Gaming kostet Megawattstunden
Der aktuelle Benchmark-Wettlauf ist ein finanzielles Spiel. Wer auf Platz eins der Leaderboards steht, zieht Enterprise-Kunden an. Entscheidungsträger wählen das führende Modell, um Verantwortung für Fehlentscheidungen abzuwälzen: „Wir haben das Beste genommen." Das macht einen einzelnen Prozentpunkt auf GPQA Diamond oder SWE-bench Verified potenziell Millionen wert. [2]
Was diese Jagd nach Prozentpunkten in der Praxis bedeutet, wird systematisch ausgeblendet. Test-Time-Compute – die Technik, bei der Modelle während der Inferenz zusätzliche Rechenschritte durchführen, um bessere Ergebnisse zu erzielen – hat die Energiegleichung fundamental verändert. Ein Modell wie GPT-5.4 Pro auf „Extra High"-Einstellungen erreicht 72% bei ARC AGI 2. Die Kosten: 39 Dollar pro einzelner Aufgabe. [3] Was das in Kilowattstunden bedeutet, bleibt ungenannt.
Das Problem geht tiefer. Benchmarks werden nicht einmal durchgeführt, sondern dutzende Male wiederholt. Verschiedene Prompting-Strategien, verschiedene Temperature-Settings, verschiedene Konfigurationen von Chain-of-Thought. Was am Ende als „Score" veröffentlicht wird, ist das Ergebnis eines Optimierungsprozesses, dessen Energiebilanz niemand offenlegt. Wenn ein Unternehmen 500 GPU-Stunden investiert, um seinen Benchmark-Score um zwei Prozentpunkte zu heben, ist das ökonomisch rational – und ökologisch eine Katastrophe, über die niemand spricht.
Die Asymmetrie: Training wird offengelegt, Inferenz nicht
Es gibt einen merkwürdigen Doppelstandard in der Transparenzdebatte. Trainingskosten sind inzwischen zumindest diskutierbar geworden. Man weiß, dass Frontier-Modelle der Generation 2025-2026 über 100 GWh pro Trainingslauf verbrauchen können. DeepSeek-V3 demonstrierte, dass es mit 95% weniger Energie wettbewerbsfähige Ergebnisse erzielen kann. Diese Zahlen existieren, weil sie Teil der Wettbewerbserzählung geworden sind – Effizienz als Marketingargument. [4]
Bei der Inferenz – und damit bei den Benchmarks – herrscht dagegen Funkstille. Das ist kein Versehen. Die Inferenz-Kosten haben das Training als primären Energiefresser inzwischen überholt: 2020 gingen noch 70-80% der KI-Energie ins Training, 2025 verbraucht die Inferenz bereits 60-70% des Gesamtbudgets. [5] Und Benchmarking ist eine besonders intensive Form von Inferenz – wiederholte, oft maximale Auslastung mit aktivierten Reasoning-Schleifen.
Google hat als erstes Unternehmen begonnen, Inferenz-Energiedaten zu veröffentlichen: Ein typischer Gemini-Textprompt verbraucht etwa 0,24 Wh im Jahr 2025. [6] Aber ein Benchmark-Durchlauf ist kein typischer Prompt. Es sind tausende Prompts, oft mit maximaler Compute-Allokation, über Stunden oder Tage. Die Hochrechnung von Einzelprompt-Daten auf Benchmark-Gesamtkosten wird von keinem Anbieter geleistet – oder zumindest nicht publiziert.
Der EU AI Act: Regulierung mit blinden Flecken
Ab August 2026 greifen die schärfsten Verpflichtungen des EU AI Act. Artikel 53(1)(a) verlangt von Anbietern allgemeiner KI-Modelle, technische Dokumentation vorzuhalten – einschließlich des Energieverbrauchs, „ob bekannt oder geschätzt". [7] Das klingt nach Fortschritt. Bei genauerer Betrachtung ist es eine Mogelpackung.
Erstens: Die Berichtspflicht gilt nur für die Entwicklungsphase. Inferenz – also der gesamte operative Betrieb inklusive Benchmarking – ist explizit ausgenommen. Das ist, als würde man den Spritverbrauch eines Autos nur bei der Herstellung messen, nicht beim Fahren. [8]
Zweitens: Wo der Energieverbrauch tatsächlich offengelegt werden muss, ist die Information auf Behörden beschränkt. Downstream-Anbieter und die Öffentlichkeit haben keinen Zugang. Vertraulichkeitsklauseln schützen genau die Daten, die für eine informierte Entscheidung nötig wären.
Drittens: Schätzungen sind explizit erlaubt. Ein Unternehmen kann den Energieverbrauch seines Modells „basierend auf genutzten Rechenressourcen" schätzen, ohne eine tatsächliche Messung vorzulegen. Die Europäische Kommission plant zwar, bis 2026 Standardisierungsorganisationen mit der Entwicklung von Berichtsstandards zu beauftragen – aber die eigentlichen Standards existieren noch nicht. [8]
Das Ergebnis: Eine Regulierung, die Transparenz verspricht und dabei die größte Energiequelle im KI-Betrieb systematisch ausblendet. Die Benchmark-Anbieter selbst – von MLCommons bis zu proprietären Leaderboards – haben keinerlei Berichtspflicht.
MLPerf Power: Der Standard, den niemand nutzt
Es gibt durchaus Versuche, das Problem zu adressieren. MLPerf Power, entwickelt von einem Konsortium aus über 20 Organisationen unter dem Dach von MLCommons, ist der ambitionierteste Ansatz zur standardisierten Messung des Energieverbrauchs von KI-Systemen. Das Framework deckt alles ab – von Mikrowatt in IoT-Geräten bis zu Megawatt in Hochleistungs-Rechenclustern. [9]
Die Methodik ist solide. MLPerf Power misst nicht nur den Stromverbrauch, sondern die Energieeffizienz: Systemleistung pro Energieeinheit. Es berücksichtigt alle Systemkomponenten – Compute, Speicher, Interconnect, Kühlung. Es adressiert den verbreiteten Irrtum, dass die isolierte Messung einzelner ML-Komponenten ausreicht. Alle akzeptierten Ergebnisse werden öffentlich zugänglich gemacht.
Das Problem: Kein einziger der großen Modellhersteller veröffentlicht MLPerf-Power-Ergebnisse für seine Benchmark-Durchläufe. Der Standard existiert. Er wird für Trainings-Hardware angewendet. Aber für die Inferenz-Seite – für die Leaderboard-Platzierungen, die über Milliardenbewertungen entscheiden – bleibt er ungenutzt. Die Sustainable Metal Cloud hat als erster Anbieter MLPerf-Training-Power-Ergebnisse veröffentlicht. [10] Für Inferenz-Benchmarking wartet man vergeblich.
Das ist kein technisches Problem. Die Messinstrumente existieren. Es ist ein ökonomisches Kalkül: Wer die Energiekosten seiner Benchmark-Scores offenlegt, gibt dem Wettbewerb eine Angriffsfläche. „Unser Modell ist schneller" klingt anders, wenn dahinter steht: „... und verbraucht dafür das Dreifache an Strom."
Die Hugging-Face-Initiative und ihre Grenzen
Der AI Energy Score von Hugging Face ist ein weiterer Versuch, Licht ins Dunkel zu bringen. Die Initiative definiert ein standardisiertes Framework für die Energieeffizienz von KI-Modellen, testet sowohl offene als auch proprietäre Modelle über zehn verschiedene Aufgaben und führt ein relatives Scoring-System ein. [11]
Das Konzept ist richtig: Nicht absolute Energiewerte, sondern vergleichbare Effizienz-Scores schaffen Orientierung. Aber auch hier bleiben fundamentale Lücken. Die Tests messen Standardaufgaben – nicht die Extrembelastung eines Benchmark-Durchlaufs mit maximaler Test-Time-Compute-Allokation. Und proprietäre Modelle können nur über ihre APIs getestet werden, was die tatsächliche Hardware-Auslastung und den realen Energieverbrauch hinter der API-Abstraktionsschicht verbirgt.
Die wahren Energiekosten eines Leaderboard-Platzes bleiben unsichtbar, weil die Messmethoden an der Realität des Benchmark-Wettlaufs vorbeigehen. Was fehlt, ist kein besserer Score – sondern die Pflicht, neben jedem Benchmark-Ergebnis die dafür verbrauchte Energie in Kilowattstunden auszuweisen.
Der Skandal, der kommen wird
Die Zahlen existieren. Jeder Cloud-Provider, jeder Modellhersteller kennt den Energieverbrauch seiner GPU-Cluster auf Stundenbasis. Die Monitoring-Systeme erfassen jeden Watt. Was fehlt, ist nicht die Messung – es ist der Wille zur Veröffentlichung.
Brookings warnt bereits: Die von Tech-Unternehmen, Rechenzentrumsbetreibern und Hardwareherstellern offengelegten Informationen sind unzureichend, um vernünftige Prognosen über den beispiellosen Energiebedarf zu erstellen. [12] KI verbraucht 2025 global geschätzte 100 Terawattstunden Strom. Worst-Case-Prognosen gehen von 1.370 TWh bis 2035 aus. [5] Rechenzentren nähern sich 2026 einem Verbrauch von 1.050 TWh – das wäre Platz fünf der globalen Länder-Rangliste, zwischen Japan und Russland. [4]
In dieser Landschaft ist die systematische Nicht-Offenlegung von Benchmark-Energiekosten kein Kavaliersdelikt. Es ist eine Informationsasymmetrie, die Investoren, Regulierer und Kunden gleichermaßen im Dunkeln lässt. Der erste Whistleblower, der die internen Benchmark-Energiedaten eines Frontier-Modell-Anbieters leakt, wird eine Debatte auslösen, die die Branche grundlegend verändern wird.
Nicht weil die Zahlen per se skandalös wären. Sondern weil sie zeigen werden, dass die Leaderboard-Platzierungen, auf deren Basis Milliarden investiert werden, zu Kosten erkauft werden, die kein Unternehmen freiwillig offenlegt. Die Wasserverbräuche sind bereits sichtbar geworden: In Loudoun County, Virginia – „Data Center Alley" – stieg der Wasserverbrauch zwischen 2019 und 2023 um 63%. [13] Die Energiebilanzen werden folgen.
Was sich ändern muss
Die Lösung ist weder komplex noch unrealistisch. Drei Maßnahmen würden genügen:
Pflichtfeld „Energie pro Benchmark-Durchlauf". Jedes veröffentlichte Benchmark-Ergebnis muss den Gesamtenergieverbrauch in kWh ausweisen – inklusive aller Wiederholungen und Optimierungsläufe. Die Infrastruktur dafür existiert.
Erweiterung des EU AI Act auf Inferenz. Die Beschränkung der Berichtspflicht auf die Entwicklungsphase ist ein regulatorischer Fehler, der korrigiert werden muss. Inferenz ist der dominante Energiefaktor und muss in die Berichtspflichten aufgenommen werden.
Öffentliche Energiedaten statt behördlicher Geheimhaltung. Vertraulichkeitsklauseln, die Energiedaten vor der Öffentlichkeit schützen, dienen dem Geschäftsinteresse, nicht dem Gemeinwohl. Anonymisierte Daten-Sharing-Arrangements, wie von Brookings vorgeschlagen, wären ein praktikabler Kompromiss.
Die KI-Industrie hat sich daran gewöhnt, Leistung ohne Kosten zu kommunizieren. Diese Zeit läuft ab. Nicht weil die Technologie schlecht wäre – sondern weil eine Branche, die Transparenz predigt, sich die intransparenteste Metrik der Welt leistet: den Benchmark-Score ohne Stromrechnung.
Referenzen
- Traditional Holiday Live Stream – KI-Benchmarks, Test-Time-Compute und der aktuelle Hype, 2026
https://www.youtube.com/watch?v=R3nQ7pGXJcA - The Two Best AI Models/Enemies Just Got Released Simultaneously – Claude Opus 4.6 vs. GPT 5.3 Benchmark-Vergleich, 2026
https://www.youtube.com/watch?v=1PxEziv5XIU - Gemini 3 Pro: Breakdown – Benchmark-Performance und Kosten pro Aufgabe, 2026
https://www.youtube.com/watch?v=chr2I7CZTfk - AI Environment Statistics 2026: How AI Consumes 2% of Global Power, All About AI
https://www.allaboutai.com/resources/ai-statistics/ai-environment/ - The Real Environmental Footprint of Generative AI: What 2025 Data Tell Us, Online Learning Consortium
https://onlinelearningconsortium.org/olc-insights/2025/12/the-real-environmental-footprint-of-generative-ai/ - We did the math on AI's energy footprint – MIT Technology Review, Mai 2025
https://www.technologyreview.com/2025/05/20/1116327/ai-energy-usage-climate-footprint-big-tech/ - EU AI Act: GPAI Model Obligations and Final GPAI Code of Practice, Latham & Watkins, 2026
https://www.lw.com/en/insights/eu-ai-act-gpai-model-obligations-in-force-and-final-gpai-code-of-practice-in-place - Energy efficiency requirements under the EU AI Act – White & Case LLP
https://www.whitecase.com/insight-alert/energy-efficiency-requirements-under-eu-ai-act - MLPerf Power: Benchmarking the Energy Efficiency of Machine Learning Systems from µWatts to MWatts for Sustainable AI, arXiv, 2024
https://arxiv.org/html/2410.12032v1 - Sustainable Metal Cloud publishes world-first MLPerf Training power consumption results, Firmus
https://firmus.co/newsroom/sustainable-metal-cloud-publishes-world-first-mlperf-training-power-consumption-results-establishes-new-benchmark - AI Energy Score – Hugging Face Initiative für vergleichbare Energieeffizienz-Bewertungen
https://huggingface.github.io/AIEnergyScore/ - As energy demands for AI increase, so should company transparency – Brookings Institution
https://www.brookings.edu/articles/as-energy-demands-for-ai-increase-so-should-company-transparency/ - The hidden cost of AI: New report warns over energy use and environmental impact – Consultancy.eu
https://www.consultancy.eu/news/13183/the-hidden-cost-of-ai-new-report-warns-over-energy-use-and-environmental-impact