AI Alignment beginnt vor dem Training: Werte & Stakeholder

AI Alignment Stakeholder Werte Diversitaet

Alignment ist das Wort der Stunde. Es klingt technisch, präzise, lösbar. Die Modelle sollen sich an menschlichen Werten ausrichten. Die Frage, die niemand laut genug stellt: An wessen Werten eigentlich?

Die aktuelle Alignment-Debatte wird dominiert von einer Handvoll Forschungslabors in San Francisco, London und ein paar Universitäten dazwischen. Die Teams dort sind brillant. Sie sind auch erschreckend homogen – kulturell, sozioökonomisch, geographisch. Und sie definieren gerade, was "gutes Verhalten" für Systeme bedeutet, die Milliarden Menschen nutzen werden. ^[1]

Das ist kein Randproblem. Es ist das Alignment-Problem vor dem Alignment-Problem.

Die Illusion universeller Werte

Wenn OpenAIs Model Spec definiert, dass ein Modell "hilfreich, harmlos und ehrlich" sein soll, klingt das vernünftig. ^[2] Aber was "hilfreich" bedeutet, hängt massiv vom Kontext ab. Für einen Softwareentwickler in Berlin ist eine direkte, unverblümte Antwort hilfreich. Für eine Nutzerin in Tokio kann dieselbe Direktheit als respektlos wahrgenommen werden. Für einen Aktivisten im Globalen Süden ist "harmlos" möglicherweise genau das Gegenteil von dem, was er braucht – nämlich ein Werkzeug, das unbequeme Wahrheiten über Machtstrukturen ausspricht.

Studien der Oxford Academic-Forschungsgruppe PNAS Nexus zeigen das Problem empirisch: Je weiter ein Land kulturell von den USA entfernt ist – dem WEIRD-Referenzpunkt (Western, Educated, Industrialized, Rich, Democratic) –, desto schlechter stimmen die Wertvorstellungen von GPT-Modellen mit den lokalen Werten überein. ^[3] Alle großen Sprachmodelle zeigen kulturelle Werte, die englischsprachigen und protestantisch-europäischen Ländern ähneln. Für 19–29% der untersuchten Länder verschlechtert selbst gezieltes "Cultural Prompting" die Alignment-Qualität, statt sie zu verbessern.

Das ist keine Nebenwirkung. Das ist das Produkt eines Systems, in dem die Definition von "aligned" von einer extrem schmalen demografischen Basis bestimmt wird.

RLHF: Demokratie per Crowdworker

Reinforcement Learning from Human Feedback – RLHF – ist die dominierende Methode, um Modelle an menschliche Präferenzen anzupassen. Der Mechanismus klingt demokratisch: Menschen bewerten Modellantworten, und das Modell lernt, die bevorzugten Antworten zu produzieren.

In der Praxis sieht das so aus: Tausende Crowdworker, oft in Niedriglohnländern, bewerten Antwortpaare nach Richtlinien, die von Forschern in Kalifornien geschrieben wurden. Die Bewertungsrichtlinien reflektieren die Werte der Richtlinien-Autoren. Die Crowdworker reflektieren die Werte ihrer ökonomischen Zwänge – sie optimieren auf schnelle Bewertung, nicht auf philosophische Tiefe. ^[4]

Forschung zur sogenannten Annotator Disagreement zeigt: Wenn Bewerter sich uneinig sind – was bei ethisch und kulturell aufgeladenen Themen ständig der Fall ist –, wird typischerweise ein einzelnes "Ground-Truth"-Label verwendet. Das bedeutet im Klartext: Eine Perspektive gewinnt, alle anderen werden aus dem Training gelöscht. ^[5]

Die mathematische Unmöglichkeit einer universellen demokratischen Alignment-Lösung ist inzwischen formal bewiesen. Unter breiten Annahmen gibt es keinen einzigartigen, universell zufriedenstellenden Weg, KI-Systeme mittels RLHF demokratisch auszurichten – ein Ergebnis, das an Arrows Unmöglichkeitstheorem erinnert und jeden betrifft, der KI-Systeme baut, die diverse menschliche Werte respektieren sollen. ^[6]

Die Monokultur der Sicherheitsteams

Anthropics Responsible Scaling Policy, inzwischen in Version 3.0, ist eines der differenziertesten Alignment-Dokumente der Branche. ^[7] Sie unterscheidet zwischen harten Sicherheitsregeln und überschreibbaren Defaults. Sie benennt explizit, dass die Evaluierungswissenschaft für KI-Modelle noch nicht ausgereift ist. Das ist ehrlich.

Was sie nicht benennt: Wer an diesen Evaluierungen beteiligt ist. Wer definiert, welche Risiken getestet werden. Wer entscheidet, welche Szenarien als "gefährlich" gelten und welche als akzeptabel.

Ein Blick auf die Alignment-Teams der großen Labs zeigt ein Muster: Informatiker, Mathematiker, Physiker. Gelegentlich ein Philosoph, selten ein Soziologe, praktisch nie ein Anthropologe, eine Aktivistin aus dem Globalen Süden, oder jemand mit gelebter Erfahrung von systemischer Diskriminierung. Jason Wolf, Forscher im Alignment Team bei OpenAI, beschreibt die Model Spec als "North Star" – ein öffentliches Dokument, das beschreiben soll, wie Modelle sich verhalten sollen. ^[2] Die Frage, ob ein Nordstern für alle in dieselbe Richtung zeigt, bleibt dabei offen.

Anthropics eigene Forschung zur Sycophancy – dem Phänomen, dass KI-Modelle sagen, was Nutzer hören wollen, statt ehrlich zu antworten – zeigt, wie oberflächlich aktuelle Sicherheitsmechanismen oft arbeiten. Die Ursache liegt in den Trainingsdaten, aber auch in Bewertungsrichtlinien, die "Zustimmung" implizit belohnen. ^[8]

Ontologische Blindheit: Tiefer als Bias

Das Problem geht über kulturellen Bias hinaus. Stanford-Forscher zeigen, dass KI-Systeme ontologische Annahmen einbauen – grundlegende Vorannahmen darüber, was in menschlicher Erfahrung überhaupt zählt. ^[9] Wenn ein Alignment-Team entscheidet, welche Kategorien ein Modell unterscheiden soll, welche Nuancen relevant sind und welche wegabstrahiert werden, treffen sie Entscheidungen, die weit über "Bias" hinausgehen.

Joscha Bach, Executive Director des California Institute for Machine Consciousness, bringt es auf den Punkt: Die Ausrichtung einer Superintelligenz ist eher eine kulturell-philosophische als eine rein technische Frage. ^[10] Doch behandelt wird sie fast ausschließlich technisch – als Optimierungsproblem, das mit genügend Compute und den richtigen Loss-Funktionen gelöst werden kann.

Anthropics Attribution-Graph-Forschung zu Claude 3.5 Haiku zeigt die Tiefe des Problems auf einer anderen Ebene: Sicherheitsfeatures wie Refusals entstehen nicht durch tiefes ethisches Verständnis, sondern durch oberflächliche Korrelationen auf Token-Ebene, die durch Fine-Tuning verfestigt werden. ^[11] Das Modell "versteht" nicht, warum etwas problematisch ist – es hat gelernt, bei bestimmten Mustern abzulehnen. Ein System, das Ethik durch Pattern-Matching simuliert, wird genau dort versagen, wo die Muster der Trainingsersteller enden – an den Rändern kultureller Erfahrung, die nie in den Trainingsdaten waren.

Was sich ändern müsste – und warum es nicht passiert

Die Forschungsliteratur ist sich erstaunlich einig über die Richtung: AI Alignment kann nicht top-down funktionieren. ^[12] Globale KI-Systeme, die in engen kulturellen Kontexten trainiert werden, können eine einzelne moralische Weltsicht im großen Maßstab einbetten und verstärken – ein subtiles, aber systemisches Risiko für Pluralismus und demokratische Selbstbestimmung.

Konkrete Vorschläge existieren. STELA, ein community-zentrierter Ansatz zur Norm-Erhebung, macht vor, wie Alignment-Werte durch partizipative Prozesse statt durch Top-down-Deklarationen definiert werden könnten. ^[13] Die AAAI-26 hat erstmals einen eigenen Special Track für AI Alignment eingerichtet, der explizit Multi-Stakeholder-Perspektiven einfordert. ^[14] Stanford forscht an Multi-Stakeholder-Alignment-Frameworks, die widerstreitende Werte verschiedener Gruppen formal in LLM-basierte Systeme integrieren. ^[15]

All das ist vielversprechend – und all das steht vor demselben Hindernis: Es ist langsam, teuer und inkompatibel mit dem Tempo, in dem die Labs ihre Modelle releasen. Anthropic veröffentlichte 74 Claude-Releases in 52 Tagen. ^[16] Ein partizipativer Alignment-Prozess mit echten Stakeholder-Konsultationen braucht Monate. In der Zeit sind drei Modellgenerationen vergangen.

Der unbequeme Kern

Das größte Alignment-Risiko liegt nicht in der Technik. Es liegt in der Annahme, dass eine kleine Gruppe hochintelligenter, gut bezahlter Ingenieure in westlichen Technologiezentren die Werte definieren kann, an denen sich Systeme ausrichten sollen, die für die gesamte Menschheit gebaut werden.

Diese Annahme ist nicht böswillig. Sie ist strukturell. Die Labs stellen ein, wen sie kennen, aus den Netzwerken, in denen sie sich bewegen. Die Forschungsagenda wird durch die Probleme bestimmt, die diese Menschen sehen – und die Probleme, die sie nicht sehen, existieren in der Alignment-Forschung schlicht nicht.

Joscha Bach hat recht: Langfristige Koexistenz mit KI-Systemen erfordert Konzepte, die über technische Kontrolle hinausgehen. ^[10] Aber diese Konzepte entstehen nicht in Labors, die von der Welt abgeschottet sind. Sie entstehen in der Auseinandersetzung mit der Welt – mit ihren Widersprüchen, ihren unbequemen Stimmen, ihren irreduziblen Differenzen.

Die Frage ist nicht, ob wir Alignment brauchen. Die Frage ist, ob wir bereit sind, die Kontrolle über die Definition von "aligned" aus den Händen derer zu nehmen, die sie sich selbst gegeben haben. Alles andere ist technisch brillantes Alignment an den falschen Werten.

Referenzen

AI Alignment Cannot Be Top-Down – Warum globale KI-Systeme nicht von einer kleinen Gruppe definiert werden können, 2025
https://ai-frontiers.org/articles/ai-alignment-cannot-be-top-down
Episode 15 – Inside the Model Spec: OpenAIs Alignment-Forscher Jason Wolf über die Model Spec als North Star, 2026
https://www.youtube.com/watch?v=H8GMRxG8suw
Cultural bias and cultural alignment of large language models – PNAS Nexus / Oxford Academic, 2024
https://academic.oup.com/pnasnexus/article/3/9/pgae346/7756548
The value alignment problem in advisory AI – Systematic literature review, AI and Ethics / Springer Nature, 2026
https://link.springer.com/article/10.1007/s43681-026-01015-4
AI Alignment at Your Discretion – ACM Conference on Fairness, Accountability, and Transparency, 2025
https://dl.acm.org/doi/10.1145/3715275.3732194
The Democratic Dilemma: AI Alignment and Social Choice Theory – Equitech Futures, 2025
https://www.equitechfutures.com/research-articles/alignment-and-social-choice-in-ai-models
Anthropics Responsible Scaling Policy Version 3.0 – Anthropic, 2026
https://www.anthropic.com/news/responsible-scaling-policy-v3
What is sycophancy in AI models? – Kira, Safeguards Team Anthropic, 2026
https://www.youtube.com/watch?v=nvbq39yVYRk
To explore AI bias, researchers pose a question: How do you imagine a tree? – Stanford Report, 2025
https://news.stanford.edu/stories/2025/07/ai-llm-ontological-systems-bias-research
Dr. Joscha Bach: Bewusstsein ist KEINE menschliche Leistung – KI, Geist & Zukunft, 2026
https://www.youtube.com/watch?v=FiZaV8Ci3jQ
On the Biology of a Large Language Model (Part 2) – Attribution Graphs und Sicherheitsfeatures in Claude 3.5 Haiku, 2026
https://www.youtube.com/watch?v=V71AJoYAtBQ
The Alignment of Values: Embedding Human Dignity in Algorithmic Bias Governance for the AGI Era – De Gruyter, 2025
https://www.degruyterbrill.com/document/doi/10.1515/ijdlg-2025-0006/html?lang=en
STELA: a community-centred approach to norm elicitation for AI alignment – PMC, 2024
https://pmc.ncbi.nlm.nih.gov/articles/PMC10951208/
AAAI-26 Call for the Special Track on AI Alignment – AAAI Conference, 2026
https://aaai.org/conference/aaai/aaai-26/aia-call/
Multi-Stakeholder Alignment in LLM-Powered Collaborative AI Systems – Stanford SCALE Initiative, 2025
https://scale.stanford.edu/ai/repository/multi-stakeholder-alignment-llm-powered-collaborative-ai-systems-multi-agent
Claude just became OpenClaw – Anthropics 74 Releases in 52 Tagen, 2026
https://www.youtube.com/watch?v=0e1ZzerTq70