Attribution Graphs – abstrakte Darstellung neuronaler Netzwerk-Pfade als leuchtende Knotenpunkte in der Dunkelheit

Im März 2025 veröffentlichte Anthropic eine Forschungsarbeit, die in der KI-Community für Aufsehen sorgte: Attribution Graphs – eine Methode, um die internen Rechenwege von Claude 3.5 Haiku sichtbar zu machen.[1] Features, die sich gegenseitig aktivieren. Kausale Pfade, die zeigen, warum das Modell „Austin" antwortet, wenn man nach der Hauptstadt des Bundesstaates fragt, in dem Dallas liegt. Ein Zwischenschritt namens „Texas", der im Graphen aufleuchtet. Die Reaktion war vorhersehbar: Endlich öffnen wir die Blackbox. MIT Technology Review kürte Mechanistic Interpretability zur Breakthrough Technology 2026.[2] Anthropic selbst erklärte das Ziel, bis 2027 „die meisten Modellprobleme zuverlässig erkennen" zu können.

Aber hier liegt der Denkfehler, über den niemand spricht: Attribution Graphs sind ein Röntgenbild. Kein Immunsystem.

Die Einbahnstraße der Erklärbarkeit

Attribution Graphs funktionieren so: Ein sogenanntes „Replacement Model" – ein Cross-Layer Transcoder – ersetzt die dichten, schwer lesbaren MLP-Schichten eines Transformers durch spärlichere, interpretierbare Komponenten.[3] Das Ergebnis ist ein gerichteter Graph, in dem Knoten für Features stehen und Kanten für kausale Einflüsse zwischen ihnen. Man kann nachvollziehen, welche internen Repräsentationen zur Ausgabe beigetragen haben.

Das klingt revolutionär. Ist es auch – für uns. Für Forscher, Auditoren, Regulierer. Für jeden, der von außen auf ein Modell schaut und verstehen will, was darin passiert. Aber genau hier endet die Revolution. Denn der Graph existiert nur als nachträgliche Analyse. Er ist kein Bestandteil des Modells selbst. Claude kann seinen eigenen Attribution Graph nicht lesen, geschweige denn daraus Konsequenzen ziehen.

Das ist keine Nebensächlichkeit. Es ist die zentrale Machtlücke der gesamten Explainable-AI-Bewegung. Wir bauen immer bessere Mikroskope – aber der Organismus, den wir untersuchen, hat keinen Zugang zu den Befunden.

Die Anthropic-Forscher selbst sind erstaunlich offen über die Grenzen: Ihre Methoden liefern nur bei „etwa einem Viertel der Prompts" zufriedenstellende Erklärungen.[1] Aufmerksamkeitsmechanismen bleiben weitgehend opak. Und die sogenannten „Error Nodes" – uninterpretierbare Lücken im Graphen – füllen das, was die Methode nicht erfasst. Das Röntgenbild zeigt bestenfalls 25 Prozent des Skeletts.

Wenn das Modell sich selbst widerspricht

Die vielleicht verstörendste Erkenntnis der Attribution-Graph-Forschung betrifft die Kluft zwischen Selbsterklärung und Realität. Fragt man Claude, wie es eine Addition durchführt, beschreibt es den klassischen Algorithmus: Einer addieren, Übertrag bilden, Zehner addieren. Die Attribution Graphs zeigen etwas völlig anderes: parallele Pfade, die über Lookup-Tabellen und Modulus-Operationen gleichzeitig verschiedene Zahlenbereiche abschätzen und die Ergebnisse kombinieren.[4]

Das Modell lügt nicht. Es hat schlicht keinen Zugang zu seinen eigenen Mechanismen. Es konstruiert eine plausible Erklärung aus dem, was es über Mathematik „weiß" – nicht aus dem, was es tatsächlich tut. Das ist kein Bug. Es ist ein Strukturproblem, das sich durch die gesamte aktuelle KI-Architektur zieht.

Für die Sicherheitsdebatte hat das gravierende Konsequenzen. Wenn ein Modell nicht erkennen kann, dass seine interne Logik auf wackeligen parallelen Approximationen statt auf robustem Reasoning basiert, kann es auch nicht davor warnen. Es wird mit derselben Konfidenz antworten, egal ob der interne Pfad solide oder fragil ist. Attribution Graphs können diese Fragilität aufdecken – aber nur für den menschlichen Beobachter, nachträglich, offline.

Das Sicherheitstheater der Refusal-Mechanismen

Besonders aufschlussreich ist, was Attribution Graphs über die Sicherheitsmechanismen großer Sprachmodelle enthüllen. Die Refusal-Schaltkreise – also die Mechanismen, die ein Modell dazu bringen, gefährliche Anfragen abzulehnen – basieren laut der Forschung nicht auf tiefem ethischem Verständnis, sondern auf oberflächlichen Token-Korrelationen.[4] „Bleach + Ammonia" = ablehnen. Nicht weil das Modell versteht, dass Chlorgas tödlich ist, sondern weil diese Token-Kombination während des Fine-Tunings als Trigger für Ablehnung markiert wurde.

Noch dramatischer: In der Jailbreak-Analyse zeigte sich, dass der „Schlüsselmechanismus" für die Erkennung verschlüsselter schädlicher Anfragen gar nicht in den Attribution Graphs auftaucht – er wird „wesentlich durch Aufmerksamkeit vermittelt", also genau durch den Teil des Modells, den die Methode nicht vollständig erfasst.[1]

Attribution Graphs – gläsernes Gehirn mit beleuchteten Schaltkreisen, halb kartiert, halb im Schatten

Wir haben also ein Werkzeug, das uns zeigt, dass die Sicherheitsmechanismen oberflächlich sind – aber das Werkzeug selbst kann die tieferen Sicherheitsmechanismen nicht sichtbar machen. Und das Modell kann weder das eine noch das andere nutzen, um sein eigenes Verhalten zu korrigieren.

Die fehlende Rückkopplungsschleife

Der eigentliche Paradigmenwechsel, den Attribution Graphs versprechen, aber nicht einlösen, ist die Operationalisierung. Subhadip Mitra beschrieb in seiner Analyse für Produktionsumgebungen die Hoffnung: von der Erkennung zum Verständnis, vom Verständnis zur chirurgischen Intervention.[5] Doch auch er kommt zum Schluss, dass das Modell selbst dabei außen vor bleibt. Die Vision ist weiterhin menschengesteuert: bessere Werkzeuge für Ingenieure, um zu debuggen und einzugreifen – nicht autonome Selbstkorrektur durch das System.

Eine Forschungsagenda der Oxford AI Governance Initiative skizziert zwar den Weg zu „agent-mediated correction" – einem Agenten, der das optimale Interpretabilitätswerkzeug auswählt und permanente Korrekturen mit minimalen Nebenwirkungen anwendet.[6] Aber das ist ein externer Agent, der auf das Modell einwirkt. Nicht das Modell, das sich selbst korrigiert.

Der Unterschied ist fundamental. Ein Arzt, der ein Röntgenbild betrachtet und einen Eingriff plant, ist etwas völlig anderes als ein Körper mit funktionierendem Immunsystem. Ersteres ist reaktiv, langsam und abhängig von externer Expertise. Letzteres ist proaktiv, kontinuierlich und skalierbar. Attribution Graphs geben uns bestenfalls den Arzt – aber was wir brauchen, ist das Immunsystem.

Warum das für die Regulierung ein Problem ist

Der EU AI Act, dessen Hochrisiko-Anforderungen ab August 2026 vollständig greifen, verlangt Transparenz und Erklärbarkeit für KI-Systeme.[7] Attribution Graphs scheinen die perfekte Antwort darauf zu sein: Hier, schaut her, wir können zeigen, warum das Modell diese Entscheidung getroffen hat.

Aber Erklärbarkeit ohne Handlungsfähigkeit ist ein Compliance-Feigenblatt. Wenn ein Attribution Graph zeigt, dass ein medizinisches Diagnosemodell seine Schlussfolgerung auf eine fragile Token-Korrelation statt auf klinisch valide Zusammenhänge stützt – was dann? Die Anthropic-Forscher selbst sagen, die Werkzeuge seien „nicht fortgeschritten genug, um Modellantworten in medizinischen Kontexten ohne menschliche Expertenbeteiligung zu vertrauen".[1]

Das ist ehrlich. Aber es wirft eine unbequeme Frage auf: Wenn wir wissen, dass wir den Modellen nicht vertrauen können, und wir gleichzeitig Werkzeuge haben, die uns zeigen warum wir ihnen nicht vertrauen können – aber diese Werkzeuge nichts daran ändern – was genau haben wir dann gewonnen?

Guide Labs hat mit Steerling-8B einen alternativen Ansatz vorgestellt: ein 8-Milliarden-Parameter-Modell, dessen Architektur von Grund auf so gebaut ist, dass jeder Token auf seine Herkunft in den Trainingsdaten zurückverfolgt werden kann.[8] Das ist ein Schritt in Richtung inhärenter statt nachträglicher Erklärbarkeit. Aber auch hier fehlt die Rückkopplungsschleife: Das Modell weiß, woher seine Antwort stammt – aber nicht, ob die Quelle in diesem Kontext relevant oder verlässlich ist.

Von der Diagnose zur Therapie

Die aktuelle Interpretabilitätsforschung befindet sich, wie die Anthropic-Forscher selbst schreiben, in einem „vor-paradigmatischen" Stadium – auf der Suche nach den richtigen Abstraktionen.[1] Das ist kein Vorwurf. Es ist eine Zustandsbeschreibung. Und sie sollte uns vor einer gefährlichen Selbsttäuschung bewahren: dem Glauben, dass Interpretierbarkeit und Sicherheit dasselbe sind.

Attribution Graphs sind ein enormer wissenschaftlicher Fortschritt. Sie zeigen uns, dass Modelle mehrstufig denken, vorausplanen, abstrakte Repräsentationen bilden – und dass ihre Sicherheitsmechanismen fragiler sind, als wir hofften. Aber sie sind ein Kontrollinstrument, kein Korrekturmechanismus. Sie machen das Modell durchsichtig, nicht selbstbewusst.

Für echte Verlässlichkeit braucht es nicht nur interpretierbare, sondern operationalisierbare Erklärungen – Mechanismen, auf die das System selbst zugreifen und sein Verhalten in Echtzeit anpassen kann. Das wäre der Sprung vom Röntgenbild zum Immunsystem. Und diesen Sprung hat noch niemand gemacht.

Bis dahin bleibt Attribution Graphs das, was sie sind: das beste Mikroskop, das wir je hatten. Für ein System, das nicht weiß, dass es krank sein könnte.

Referenzen

  1. Anthropic, „On the Biology of a Large Language Model", Transformer Circuits Thread, März 2025
    https://transformer-circuits.pub/2025/attribution-graphs/biology.html
  2. MIT Technology Review, „Mechanistic interpretability: 10 Breakthrough Technologies 2026", Januar 2026
    https://www.technologyreview.com/2026/01/12/1130003/mechanistic-interpretability-ai-research-models-2026-breakthrough-technologies/
  3. Anthropic, „Circuit Tracing: Revealing Computational Graphs in Language Models", März 2025
    https://transformer-circuits.pub/2025/attribution-graphs/methods.html
  4. YouTube-Analyse, „On the Biology of a Large Language Model (Part 2)" – Analyse der Anthropic-Publikation
    https://www.youtube.com/watch?v=V71AJoYAtBQ
  5. Subhadip Mitra, „Circuit Tracing for the Rest of Us: From Probes to Attribution Graphs and What It Means for Production Safety", 2026
    https://subhadipmitra.com/blog/2026/circuit-tracing-production/
  6. Oxford AI Governance Initiative, „Automated Interpretability-Driven Model Auditing and Control: A Research Agenda", Januar 2026
    https://aigi.ox.ac.uk/wp-content/uploads/2026/01/Automated_interp_Research_Agenda.pdf
  7. EU AI Act, vollständig anwendbar für Hochrisiko-Systeme ab August 2026
    https://artificialintelligenceact.eu/
  8. TechCrunch, „Guide Labs debuts a new kind of interpretable LLM", Februar 2026
    https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/