AI Safety: KI-Sicherheit als Rohstoffkrieg – Digitale Erze

AI Safety Rohstoffkrieg: Digitale Erze für sichere KI

Alle reden über Guardrails. Über Alignment. Über verantwortungsvolles Skalieren. Was niemand fragt: Woher kommen eigentlich die Daten, mit denen KI-Modelle sicher gemacht werden?

Die AI-Safety-Debatte 2026 dreht sich um Policies, Frameworks und Evaluierungen. Anthropic veröffentlicht Version 3.0 seiner Responsible Scaling Policy. ^[1] OpenAI expandiert sein Safety Bug Bounty Programm. ^[2] Der International AI Safety Report 2026 empfiehlt globale Koordination bei Sicherheitstests. ^[3] Klingt nach Fortschritt. Ist es auch – auf der Policy-Ebene.

Aber Policy ohne Material ist Architektur ohne Beton. Und das Material der KI-Sicherheit – die spezifischen, hochwertigen Trainingsdaten für Alignment, Red Teaming und Sicherheitsevaluierung – ist der blinde Fleck der gesamten Diskussion. Wer diese Daten kontrolliert, kontrolliert nicht nur, was sicher ist, sondern was als sicher gilt.

Seltene Erden, digitale Version

Die Analogie ist nicht metaphorisch, sie ist strukturell. Seltene Erden – Neodym, Lithium, Kobalt – werden nicht deshalb geopolitisch relevant, weil sie selten sind. Sie sind relevant, weil ihre Verarbeitung hochkonzentriert ist. China kontrolliert über 60% der globalen Rare-Earth-Verarbeitung. Das Princeton Institute for Advanced Study widmet dieser Verflechtung von kritischen Mineralien und KI-Lieferketten eine eigene Forschungsinitiative. ^[4]

Bei KI-Sicherheitsdaten sehen wir dasselbe Muster. Die Rohstoffe der AI Safety sind keine gewöhnlichen Trainingsdaten. Es sind:

Adversarial Prompt-Response-Paare: Tausende von Dialogen, in denen Menschen systematisch versuchen, KI-Modelle zu gefährlichem Verhalten zu verleiten. Anthropics Red-Teaming-Datensatz enthält 38.961 solcher Konversationen – gesammelt über Crowdworker auf Plattformen wie Upwork und MTurk. ^[5] Diese Daten sind nicht einfach zu generieren. Sie erfordern kreative, geschulte Angreifer, die die Grenzen der Modelle kennen und systematisch austesten.

Alignment-Demonstrationsdaten: Die Beispiele, anhand derer Modelle lernen, was "richtig" bedeutet – Constitutional AI, RLHF-Feedback, menschliche Präferenz-Rankings. Jeder dieser Datenpunkte kostet Zeit, Expertise und Urteilsvermögen.

Katastrophale Szenario-Daten: Simulationen und Dokumentationen von Fällen, in denen KI-Systeme versagen könnten – biologische Risiken, Cybersecurity-Exploits, autonome Waffensysteme. Das UK AI Safety Institute und Anthropic haben gezeigt, dass bereits minimale Mengen fehlerhafter Daten ganze Modelle "vergiften" können. ^[6]

Das Problem: Im Gegensatz zu generellen Trainingsdaten, die im Petabyte-Bereich verfügbar sind, existieren diese Sicherheitsdaten in extrem begrenzten Mengen. Und sie konzentrieren sich bei einer Handvoll Akteure.

Die unsichtbare Monopolisierung

Wer erzeugt heute AI-Safety-Daten? Primär drei Gruppen: die großen KI-Labore selbst (Anthropic, OpenAI, Google DeepMind), eine kleine Zahl akademischer Forschungsgruppen, und staatliche Sicherheitsinstitute wie das britische AISI oder das im Aufbau befindliche US AI Safety Institute.

Das erzeugt eine zirkuläre Abhängigkeit, die demokratisch problematisch ist. Dieselben Unternehmen, die Modelle bauen, definieren über ihre Sicherheitsdaten, was als sicher gilt. Sie sind gleichzeitig Hersteller, Prüfer und Normsetzer. Anthropics RSP v3.0 räumt das implizit ein: Die Evaluierungswissenschaft für KI-Modelle sei "noch nicht ausgereift", und die Einschätzung von Risiken bleibe "oft mehrdeutig". ^[1]

Das Future of Life Institute bestätigt in seinem AI Safety Index 2025, dass die meisten Sicherheitsbewertungen auf proprietären Datensätzen basieren, deren Zusammensetzung nicht öffentlich einsehbar ist. ^[7] Wenn aber niemand außerhalb der Labore verifizieren kann, welche Angriffsmuster getestet wurden, welche Szenarien abgedeckt sind und welche nicht – dann ist "AI Safety" eine Blackbox, die von denselben Institutionen kontrolliert wird, die von Vertrauen in ihre Sicherheit abhängen.

Die Distillation-Angriffe, die Anthropic im März 2026 aufdeckte, illustrieren die geopolitische Dimension. Drei chinesische KI-Labore – DeepSeek, Moonshot AI und MiniMax – hatten systematisch Claudes Fähigkeiten extrahiert. Das Brisante: Die distillierten Modelle übernahmen die Fähigkeiten, aber nicht die Sicherheitsvorkehrungen. ^[8] Die Safety-Daten, die die Guardrails definieren, waren nicht mitgekommen. Das ist kein Bug – es ist die logische Konsequenz einer Architektur, in der Sicherheitsdaten proprietärer sind als die Modelle selbst.

Der geopolitische Schachzug

Die Konzentration von AI-Safety-Daten folgt denselben geopolitischen Bruchlinien, die auch den Rest der KI-Entwicklung bestimmen. Die Atlantic Council identifiziert für 2026 einen sich verschärfenden Wettbewerb zwischen USA und China, bei dem mittlere Mächte zunehmend aufholen. ^[9] Aber während der Chip-Krieg, Exportkontrollen und Rechenkapazitäten permanent diskutiert werden, bleiben Sicherheitsdaten unsichtbar.

Die EU versucht mit dem AI Act, der im August 2026 vollständig in Kraft tritt, einen regulatorischen Rahmen zu setzen. ^[10] Aber der Act regelt Compliance und Risikobewertung – nicht die Frage, woher die Daten kommen, mit denen Risiken überhaupt bewertet werden. BCG konstatiert nüchtern: Für die meisten Länder ist "AI Sovereignty" eine Illusion. ^[11] Das gilt in verschärftem Maße für Safety-Souveränität.

93% der US-Führungskräfte redesignen aktuell ihre Daten-Stacks, um mehr Kontrolle über KI-Systeme zu gewinnen. ^[12] Indien baut seine GPU-Infrastruktur mit 62.000 Einheiten massiv aus. Aber Rechenkapazität ohne Sicherheitsdaten ist wie ein Hochofen ohne Erz. Und das Erz liegt in den Händen von vier oder fünf westlichen Laboren.

Dario Amodei selbst hat in seinem Essay zur KI-Zukunft auf die Gefahr hingewiesen: KI-gestützte totale Überwachung und autonome Waffensysteme bedrohen Demokratien – und fordert gleichzeitig ein Verbot des Verkaufs fortgeschrittener Chips an China. ^[13] Aber wenn die Sicherheitsarchitektur, die diese Risiken eindämmen soll, selbst zum geopolitischen Instrument wird, untergräbt das die Glaubwürdigkeit der gesamten Safety-Bewegung.

Red Teaming als Luxusgut

Das Red Teaming von KI-Modellen – das systematische Testen auf Schwachstellen und gefährliches Verhalten – ist die vielleicht kritischste Disziplin der AI Safety. Und sie hat ein fundamentales Ressourcenproblem.

OpenAIs eigener Bericht zum externen Red Teaming dokumentiert den Aufwand: Hunderte von Experten aus verschiedenen Domänen, monatelange Evaluierungszyklen, hochspezialisierte Prompt-Konstruktionen. ^[5] Die daraus entstehenden Datensätze – welche Angriffe funktionieren, welche Verteidigungen halten – sind extrem wertvoll. Und sie werden nicht geteilt.

Anthropics Frontier Red Team demonstrierte kürzlich, was möglich ist: Claude Opus 4.6 fand in nur zwei Wochen 22 Schwachstellen in Firefox, darunter 14 hochkritische. ^[14] Die offensive Kapazität ist da. Aber die defensive Wissensbasis – die Daten darüber, welche Muster zu welchen Schwachstellen führen – bleibt bei den Laboren. Das UK AISI investiert zwar in empirische Untersuchungen zu AI Monitoring und Red Teaming. ^[15] Aber die staatlichen Institute sind chronisch unterfinanziert im Vergleich zu den privaten Laboren.

Der Markt reagiert bereits. Unternehmen wie Aya Data bieten Red-Teaming-as-a-Service an. SAGE-RT generiert synthetische Alignment-Daten für spezifische Branchen. ^[16] Aber synthetische Daten haben ein bekanntes Problem: Sie reproduzieren die Muster ihrer Generatoren. Wenn ein Modell seine eigenen Schwachstellen synthetisch testen soll, testet es nur die Schwachstellen, die es bereits kennt. Die unbekannten – die gefährlichen – bleiben unentdeckt.

Was sich ändern muss

Das Anthropic Institute, gegründet unter Leitung von Jack Clark, hat die richtige Ambition: gesellschaftliche KI-Herausforderungen mit der Kombination aus internen Forschungsdaten und externem Dialog zu adressieren. ^[17] Aber Dialog allein reicht nicht.

Was fehlt, ist eine Infrastruktur für Sicherheitsdaten, die drei Prinzipien folgt:

Transparenz: Jede Organisation, die behauptet, ihr Modell sei sicher, muss offenlegen, auf welcher Datenbasis diese Behauptung steht. Nicht die Rohdaten – aber die Methodologie, den Umfang und die bekannten Lücken. Der International AI Safety Report 2026 empfiehlt gemeinsame Sicherheitstestmethoden und Incident-Reporting-Formate als Mindeststandard. ^[3] Das ist ein Anfang, aber kein Ersatz für Datentransparenz.

Dezentralisierung: Die Produktion von Sicherheitsdaten muss aus der exklusiven Domäne der großen Labore herausgelöst werden. Universitäten, unabhängige Forschungsinstitute und zivilgesellschaftliche Organisationen brauchen Zugang zu den Werkzeugen und Ressourcen, um eigene Red-Teaming-Datensätze zu erstellen. Das britische AISI und das Stanford SPAR-Programm zeigen Ansätze – aber sie erreichen nicht die Skalierung, die nötig wäre. ^[15]

Souveränität: Staaten und Staatenverbünde müssen AI-Safety-Daten als strategische Ressource behandeln – analog zu Energiereserven oder kritischer Infrastruktur. Das bedeutet nicht Protektionismus, sondern die Fähigkeit, unabhängig von den Bewertungen privater US-Labore einschätzen zu können, ob ein KI-System sicher ist.

Das Lippenbekenntnis entlarven

Die KI-Sicherheitsdebatte 2026 hat Fortschritte gemacht. Die Policies sind besser, die Frameworks ausgereifter, die Evaluierungen strenger. Aber unter der Oberfläche der Governance-Diskussion reproduziert sich eine Abhängigkeitsstruktur, die wir aus anderen Industrien kennen: Wer die Rohstoffe kontrolliert, bestimmt die Spielregeln.

Solange niemand fragt, woher die Daten kommen, mit denen "sicher" definiert wird, bleibt AI Safety ein Versprechen, das nur diejenigen einlösen können, die ohnehin die Macht haben. Das ist kein Verschwörungsnarrativ – es ist die logische Konsequenz einer Industrie, die Sicherheit als Feature vermarktet, aber die Rohstoffe dieser Sicherheit wie Geschäftsgeheimnisse behandelt.

Die Seltenen Erden der KI-Sicherheit liegen nicht in einer Mine in der Inneren Mongolei. Sie liegen in den Red-Teaming-Logs von San Francisco, in den RLHF-Datensätzen von London und in den Alignment-Experimenten von ein paar Dutzend Forschungslaboren weltweit. Wer diese Analogie ernst nimmt, versteht: Die nächste große AI-Safety-Debatte wird nicht über Algorithmen geführt. Sie wird über Daten geführt.

Referenzen

Anthropic: Responsible Scaling Policy Version 3.0, März 2026
https://www.anthropic.com/news/responsible-scaling-policy-v3
OpenAI: Safety Bug Bounty Program und Model Spec Framework, 2026
https://openai.com
International AI Safety Report 2026
https://internationalaisafetyreport.org/publication/international-ai-safety-report-2026
Princeton IAS: RARE/EARTH – The Geopolitics of Critical Minerals and the AI Supply Chain
https://alumni.princeton.edu/events/rare-earth-geopolitics-critical-minerals-and-ai-supply-chain
Anthropic: Red Teaming Language Models to Reduce Harms – 38.961 adversarial Dialogues; OpenAI: Approach to External Red Teaming
https://www.promptfoo.dev/blog/top-llm-safety-bias-benchmarks/
Atlantic Council: Eight Ways AI Will Shape Geopolitics in 2026 – Data Poisoning und AI Safety
https://www.atlanticcouncil.org/dispatches/eight-ways-ai-will-shape-geopolitics-in-2026/
Future of Life Institute: AI Safety Index 2025
https://futureoflife.org/ai-safety-index-summer-2025/
Anthropic: Erkennung und Verhinderung von Distillation-Angriffen – DeepSeek, Moonshot AI, MiniMax, März 2026
https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
Atlantic Council: Eight Ways AI Will Shape Geopolitics in 2026
https://www.atlanticcouncil.org/dispatches/eight-ways-ai-will-shape-geopolitics-in-2026/
EU AI Act – vollständige Anwendbarkeit ab August 2026
https://www.uniserver.nl/en/AI-innovation-control-digital-sovereignty-2026/
BCG: For Most Countries, AI Sovereignty Is an Illusion – Resilience Is Real, 2026
https://www.bcg.com/publications/2026/ai-sovereignty-is-an-illusion-resilience-is-real
AnalyticsWeek: AI Sovereignty – Why US Executives Are Redesigning Data Stack, 2026
https://analyticsweek.com/ai-sovereignty-2026-data-stack-redesign/
Dario Amodei: KI-Zukunftsvisionen – Automatisierung, Überwachung und Chipverbote (Video-Analyse)
https://www.youtube.com/watch?v=Iar4yweKGoI
Anthropic: KI-gestützte Identifizierung von Sicherheitslücken in Firefox – Claude Opus 4.6 Frontier Red Team
https://www.anthropic.com/news/mozilla-firefox-security
UK AISI: Empirical Investigations Into AI Monitoring and Red Teaming; Stanford SPAR Spring 2026 Projects
https://alignmentproject.aisi.gov.uk/research-area/empirical-investigations-into-ai-monitoring-and-red-teaming
Confident AI: Red Teaming LLMs Guide; Aya Data: Building Your AI Red Teaming Strategy
https://www.ayadata.ai/building-your-ai-red-teaming-strategy-from-safety-policies-to-tool-selection/
Anthropic: Gründung des Anthropic Institute unter Jack Clark, März 2026
https://www.anthropic.com/news/the-anthropic-institute