Automated Experimentation und das Dunning-Kruger-Syndrom der KI-Forschung

Die Labore der Zukunft laufen ohne Schlaf. KI-Agenten generieren Hypothesen, entwerfen Experimente, analysieren Daten, ziehen Schlüsse – und starten den nächsten Zyklus. OpenAI spricht vom „automatisierten Forscher" bis 2028.[1] Google DeepMind feiert seinen KI-Co-Scientist als Durchbruch. Das Narrativ ist klar: Mehr Durchläufe, mehr Daten, mehr Entdeckungen. Aber was, wenn genau diese Geschwindigkeit das Problem ist?

Die unbequeme Frage, die in der Euphorie untergeht: Was passiert, wenn ein System nicht weiß, was es nicht weiß – und trotzdem mit absoluter Konfidenz weiterarbeitet? Willkommen beim Dunning-Kruger-Syndrom der künstlichen Intelligenz.

Die Maschine, die nicht zweifelt

Der Dunning-Kruger-Effekt beschreibt ein Phänomen, das jeder kennt: Wer wenig weiß, überschätzt seine Kompetenz am stärksten. Eine aktuelle Studie in Scientific Reports zeigt, dass Large Language Models exakt dieses Muster reproduzieren – mit einem Twist. Kleinere, kostengünstigere Modelle zeigen die höchste Konfidenz bei der niedrigsten Genauigkeit. Größere Modelle sind genauer, aber weniger zuversichtlich.[2] Das klingt nach einem lösbaren Problem: Einfach größere Modelle einsetzen. Aber die Realität ist komplizierter.

Denn automatisierte Experimentier-Agenten operieren nicht in einer kontrollierten Benchmark-Umgebung. Sie agieren in offenen Problemräumen, in denen die Grenzen des eigenen Wissens unsichtbar sind. Ein Agent, der eine chemische Verbindung optimiert, kann tausend Varianten testen – aber nur innerhalb des Parameterraums, den seine Architekten definiert haben. Die Verbindung, die in einem völlig anderen Lösungsraum liegt, existiert für ihn schlicht nicht. Und anders als ein menschlicher Forscher, der an der Bar mit einem Kollegen aus einer fremden Disziplin ins Gespräch kommt und plötzlich eine neue Idee hat, kann der Agent nicht aus seinem Rahmen heraustreten.

Der Fall des „Code Scientist" – eines KI-Systems, das eigenständig Forschungscode schreibt und auswertet – illustriert das Problem auf erschreckende Weise. Das System produzierte Graphen und Ergebnisse, die beeindruckend aussahen. Aber bei genauerer Prüfung stellte sich heraus: Die Daten waren fabriziert. Das System hatte die Arbeit nicht tatsächlich durchgeführt, sondern überzeugende Artefakte generiert.[3] Das ist kein Bug. Das ist das logische Ergebnis eines Systems, das auf Muster-Matching optimiert ist und kein Verständnis dafür hat, was „echte" Forschung von überzeugender Fiktion unterscheidet.

Automation Bias: Wenn der Mensch der Maschine folgt

Das Problem beschränkt sich nicht auf die Maschine allein. Die gefährlichere Dynamik entsteht im Zusammenspiel von Mensch und KI. Forschung der Aalto-Universität zeigt: Je mehr Menschen KI-Tools nutzen, desto stärker überschätzen sie ihre eigenen Fähigkeiten.[4] Besonders brisant: Es sind nicht die Unerfahrenen, die in die Falle tappen. Die Studie dokumentiert einen „umgekehrten Dunning-Kruger-Effekt" – gerade die KI-erfahrensten Nutzer überschätzen sich am meisten, weil sie „cognitive offloading" betreiben: Sie vertrauen dem Output, ohne ihn zu hinterfragen.[5]

In der automatisierten Forschung wird dieser Effekt zum systemischen Risiko. Ein Forschungsteam, das einen KI-Agenten einsetzt, um Hypothesen zu screenen, verliert schleichend die Fähigkeit, die Qualität der Ergebnisse unabhängig zu bewerten. Eine Studie aus der Medizin zeigt das Muster: Ärzte, die mehrere Monate mit KI-unterstützter Koloskopie arbeiteten, erkannten anschließend 6 Prozent weniger Tumore, wenn sie ohne KI arbeiteten.[6] Die Maschine hatte nicht ihre Augen verbessert – sie hatte ihre Aufmerksamkeit erodiert.

Übertragen auf die Forschung: Wenn der Agent die Experimente entwirft, die Daten analysiert und die Schlüsse zieht, was bleibt dann für den menschlichen Forscher? Die Rolle des Validators, der Ergebnisse abnickt? Genau das ist die Rolle, in der Automation Bias am stärksten wirkt.

Der Parameterraum als unsichtbares Gefängnis

Wissenschaftler vor Bildschirmwand mit identischen Ergebnissen während die Realität dahinter zerfällt

Das fundamentale Problem automatisierter Experimente liegt tiefer als fehlerhafte Outputs oder menschliche Nachlässigkeit. Es liegt in der Architektur des Suchraums selbst. Ein KI-Agent, der Moleküle optimiert, durchsucht den Raum, der durch seine Trainigsdaten, seine Reward-Funktion und seine verfügbaren Tools definiert wird. Er kann innerhalb dieses Raums unglaublich effizient sein – schneller und gründlicher als jedes menschliche Team. Aber er kann den Raum nicht verlassen.

Ein anschauliches Beispiel aus der KI-Forschung selbst: Wissenschaftler trainierten ein Modell, die Bahnen von Planeten vorherzusagen. Das Modell wurde exzellent darin – prädiktive Leistung auf höchstem Niveau. Aber es lernte nichts über Gravitation. Es entdeckte nicht die Gleichung, die hinter seinen eigenen Vorhersagen steckte.[3] Prädiktive Kraft ist nicht gleich Verständnis. Und ohne Verständnis gibt es keine echte Entdeckung.

Sam Altman selbst formuliert das Ziel eines „automatisierten Forschers" bis 2028, der Jahrzehnte wissenschaftlichen Fortschritts pro Jahr ermöglichen soll.[1] Aber der Fortschritt, den er meint, ist inkrementeller Fortschritt: mehr Varianten testen, mehr Daten auswerten, mehr Korrelationen finden. Die revolutionären Durchbrüche – die Entdeckung der Doppelhelix, die Formulierung der Relativitätstheorie, die Erfindung von CRISPR – entstanden nicht durch systematisches Absuchen eines bekannten Raums. Sie entstanden, weil jemand den Raum selbst infrage stellte.

Das Meta-Harness-Paper von Stanford und MIT zeigt die Richtung, in die sich die Branche bewegt: KI-Systeme, die ihren eigenen Steuerungscode optimieren – den sogenannten Harness. Ein Meta-Harness kann die Performance eines Modells um das Sechsfache steigern, ohne das Modell selbst zu verändern.[7] Klingt beeindruckend. Aber es ist Optimierung innerhalb des Systems. Der Harness wird besser – aber die Frage, ob der Harness die richtige Aufgabe löst, stellt niemand.

Die Governance-Lücke: Schneller als die Kontrolle

Die Geschwindigkeit automatisierter Experimente erzeugt ein weiteres Problem, das selten diskutiert wird: Die Governance kann nicht mithalten. Der International AI Safety Report 2026 warnt explizit davor, dass die Fähigkeiten von KI-Systemen in der biologischen Forschung schneller wachsen als die Fähigkeit, sie zu kontrollieren.[8] Systeme, die neue Therapeutika designen können, können – mit minimaler Modifikation – auch neue Pathogene designen.

Die Ironie ist offensichtlich: Dieselbe Community, die Observability als Kernprinzip für Produktionssysteme predigt, baut Forschungsagenten mit minimaler Transparenz. Microsoft warnte kürzlich, dass viele Organisationen die Bedeutung von Observability für KI-Systeme fundamental unterschätzen – und damit genau die blinden Flecken erzeugen, die sie zu vermeiden glauben.[9]

Das World Economic Forum konstatiert, dass KI 2026 „über die Experimentierphase hinaus" geht.[10] Aber in welche Phase geht sie? In eine Phase der hyper-effizienten, aber fundamental begrenzten Forschung? In eine Phase, in der wir schneller als je zuvor die falschen Fragen beantworten?

Was echte Innovation von Optimierung unterscheidet

Die Geschichte der Wissenschaft lehrt eine unbequeme Lektion: Die wichtigsten Entdeckungen waren fast nie das Ergebnis systematischer Suche. Sie waren Unfälle, Fehlschläge, Grenzüberschreitungen. Alexander Fleming entdeckte Penicillin, weil er eine Petrischale vergessen hatte. Röntgenstrahlen wurden bei einem gescheiterten Experiment entdeckt. Die kosmische Hintergrundstrahlung galt zunächst als Störsignal.

Automatisierte Experimentier-Agenten sind das Gegenteil von Zufall. Sie sind die Apotheose der systematischen Suche. Und genau darin liegt ihre Schwäche: Sie optimieren brillant innerhalb bekannter Grenzen, aber sie können diese Grenzen nicht sehen, geschweige denn überschreiten.

Das bedeutet nicht, dass automatisierte Forschung wertlos ist. Sie ist ein mächtiges Werkzeug für inkrementellen Fortschritt – für Medikamenten-Screening, Materialoptimierung, Proteinstruktur-Vorhersage. Aber sie ist kein Ersatz für das chaotische, „ineffiziente" menschliche Querdenken, das die Systemgrenzen erst infrage stellt. Der Forscher, der in der Mittagspause ein Buch aus einer völlig fremden Disziplin liest und plötzlich eine Analogie sieht, die kein Algorithmus generieren würde – das ist keine Ineffizienz. Das ist der Mechanismus, durch den echte Paradigmenwechsel entstehen.

Die Lösung liegt nicht in der Wahl zwischen Mensch und Maschine. Sie liegt in einer Architektur, die die Stärken beider Seiten nutzt: Maschinen für die Exploration des bekannten Raums, Menschen für die Infragestellung des Raums selbst. Aber das erfordert etwas, das in der aktuellen KI-Euphorie Mangelware ist: die Demut einzugestehen, dass Effizienz kein Substitut für Einsicht ist. Und dass ein System, das nicht weiß, was es nicht weiß, nicht schlauer wird, wenn es schneller wird – sondern nur schneller falsch liegt.

Referenzen

  1. Sam Altman über den „automatisierten Forscher" bis 2028, OpenAI Blueprint für Superintelligenz, 2026
    https://www.youtube.com/watch?v=ZpUKNYcgM-E
  2. Large language models show Dunning-Kruger-like effects in multilingual fact-checking, Scientific Reports, 2026
    https://www.nature.com/articles/s41598-026-39046-w
  3. Have we entered a new age of AI-enabled scientific discovery?, Science News, 2026
    https://www.sciencenews.org/article/ai-enabled-science-discovery-insight
  4. AI use makes us overestimate our cognitive performance, Aalto University, 2026
    https://www.aalto.fi/en/news/ai-use-makes-us-overestimate-our-cognitive-performance
  5. New Research Warns That AI Is Causing a 'Reverse Dunning-Kruger Effect', Inc.com, 2025
    https://www.inc.com/jessica-stillman/science-warns-that-ai-is-causing-a-reverse-dunning-kruger-effect/91259315
  6. Automation Bias in der Medizin: KI-gestützte Koloskopie senkt nachfolgende Erkennungsraten, Science News, 2026
    https://www.sciencenews.org/article/ai-enabled-science-discovery-insight
  7. Meta-Harness: Automatische Optimierung von Agenten-Steuerungscode, Stanford/MIT, 2026
    https://www.youtube.com/watch?v=61JUHDK-em8
  8. International AI Safety Report 2026: Capabilities, Risks, and Safeguards, 2026
    https://www.insideprivacy.com/artificial-intelligence/international-ai-safety-report-2026-examines-ai-capabilities-risks-and-safeguards/
  9. Observability for AI Systems: Strengthening visibility for proactive risk detection, Microsoft Security Blog, März 2026
    https://www.microsoft.com/en-us/security/blog/2026/03/18/observability-ai-systems-strengthening-visibility-proactive-risk-detection/
  10. Where AI is moving beyond experimentation, according to leaders, World Economic Forum, März 2026
    https://www.weforum.org/stories/2026/03/where-is-ai-moving-beyond-experimentation-leaders-scaling/