AI Benchmarks: Der ökonomische Blackout – Warum die Branche den Energieverbrauch ihrer Tests verschweigt
Ein Modell erreicht 92% auf MMLU. Ein anderes 37,5% auf Humanity's Last Exam. Ein drittes verdoppelt den ARC-AGI-2-Score seines Vorgängers. Die Leaderboards füllen sich, die Pressemitteilungen überschlagen sich, die Investoren nicken zufrieden. Was ...
Weiterlesen →