Context Window: Intelligent Forgetting als Durchbruch

Context Window und Intelligent Forgetting – abstraktes Konzept eines sich auflösenden neuronalen Netzes

Die KI-Branche hat ein Wettrüsten. Nicht um bessere Modelle, nicht um schnellere Chips – sondern um größere Zahlen. 128K Tokens. 1 Million. 10 Millionen. Jeder neue Release feiert sein Kontextfenster wie einen Rekordversuch im Hochsprung. Höher, weiter, mehr.

Und kaum jemand fragt: Was passiert eigentlich mit der Leistung, wenn man all diesen Kontext tatsächlich nutzt?

Die Antwort ist unbequem. Sie lautet: Die Leistung bricht ein. Nicht irgendwann, nicht theoretisch – sondern systematisch und messbar. Und die Lösung liegt nicht darin, noch mehr Kontext hineinzupressen. Sondern darin, gezielt zu vergessen.

Das Märchen vom unendlichen Kontextfenster

Die Marketing-Abteilungen von OpenAI, Google und Anthropic überbieten sich seit Monaten mit immer größeren Context-Window-Zahlen. Die implizite Botschaft: Mehr Kontext = besseres Verständnis = bessere Ergebnisse. Klingt logisch. Ist es aber nicht. ^[1]

Eine Studie des KI-Forschungslabors Chroma hat unter dem Titel „Context Rot" 18 führende Modelle untersucht – darunter GPT-4.1, Claude 4 und Gemini 2.5. Das Ergebnis ist ernüchternd: Die Modellleistung degradiert konsistent mit zunehmender Eingabelänge. ^[2]

Die Details sind noch aufschlussreicher. Modelle mit einem beworbenen Kontextfenster von 200.000 Tokens werden typischerweise bereits bei 130.000 Tokens unzuverlässig – der Leistungsabfall tritt oft abrupt ein, nicht graduell. Manche Modelle versagen bei Aufgaben mit weniger als 1.000 Tokens im Kontext. Die Diskrepanz zwischen beworbenem und effektivem Kontextfenster beträgt teilweise über 99 Prozent. ^[3]

Das ist kein Schönheitsfehler. Das ist ein strukturelles Problem. Und es hat einen Namen: Context Rot.

Context Rot: Wenn mehr Kontext die Leistung zerstört

Context Rot beschreibt das systematische Nachlassen der LLM-Leistung bei zunehmender Kontextfüllung. Es ist nicht einfach eine lineare Verschlechterung – die Degradierung folgt komplexen, oft kontraintuitiven Mustern. ^[2]

Drei Befunde aus der Chroma-Studie stechen heraus:

Distraktoren multiplizieren sich. Bereits ein einzelner irrelevanter Informationsblock im Kontext reduziert die Performance. Je länger der Kontext, desto stärker der Effekt – und er wirkt bei verschiedenen Modellen unterschiedlich stark. Claude-Modelle reagieren mit konservativer Zurückhaltung und verweigern Antworten bei Unsicherheit. GPT-Modelle halluzinieren stärker.

Logischer Zusammenhang schadet. Kontraintuitiv: Modelle performen schlechter, wenn der Kontext einen logischen Gedankenfluss beibehält. Ein kohärenter Langtext ist schwerer zu navigieren als eine lose Sammlung von Fakten. Das widerspricht der intuitiven Annahme, dass strukturierte Eingaben die Verarbeitung erleichtern.

Der Needle-in-a-Haystack-Test lügt. Der am häufigsten genutzte Benchmark für Langkontext-Fähigkeiten – das Finden einer versteckten Information in einem langen Text – misst nur lexikalisches Retrieval. Modelle bestehen diesen Test routinemäßig und vermitteln den Eindruck, Langkontext sei ein gelöstes Problem. Erweiterte Varianten wie NoLiMa, die nicht-lexikalische Übereinstimmungen fordern, zeigen dramatische Performance-Einbrüche. ^[3]

Für Unternehmen hat das reale Konsequenzen. Laut Branchenanalysen gehen fast 65 Prozent der Enterprise-KI-Ausfälle im Jahr 2025 auf Context Drift oder Memory Loss während mehrstufiger Reasoning-Prozesse zurück – nicht auf eine grundsätzliche Erschöpfung des Kontextfensters. ^[4]

Was uns die Kognitionswissenschaft lehrt

Hier wird es interessant. Denn das Problem, das LLMs mit großen Kontextfenstern haben, ist eines, das die Evolution bei biologischen Gehirnen vor Millionen von Jahren gelöst hat – durch aktives Vergessen.

Unser Gehirn ist nicht leistungsfähig, weil es alles behält. Es ist leistungsfähig, weil es irrelevante Informationen aktiv unterdrückt. Kognitionspsychologen nennen das „Retrieval-Induced Forgetting" – der Abruf einer bestimmten Erinnerung schwächt konkurrierende, ähnliche Erinnerungen ab. Das ist kein Bug. Das ist ein Feature. ^[5]

Wenn du dich an den Namen eines bestimmten Restaurants erinnerst, werden alternative Restaurant-Namen aktiv unterdrückt. Das macht den Abruf schneller und präziser. Ohne diesen Mechanismus würde jede Erinnerung in einer Flut ähnlicher Informationen untergehen – genau das, was bei LLMs mit überfülltem Kontext passiert.

Die Parallele ist frappierend. Ein LLM mit einem 1-Million-Token-Kontext verhält sich wie ein Mensch, der versucht, gleichzeitig tausend Bücher im Kopf zu behalten. Er kann jedes einzelne Wort „sehen", aber die relevante Information geht im Rauschen unter. Nicht weil sie fehlt, sondern weil zu viel anderes da ist.

Selective Attention: Die Forschung holt auf

Kontextpruning – eine Bibliothek, in der irrelevante Bücher verschwinden und relevante Informationen erhalten bleiben

Die Forschungslabore haben das Problem erkannt. Und die Ansätze, die gerade entstehen, folgen genau der biologischen Vorlage: nicht mehr Kontext speichern, sondern weniger davon verarbeiten – aber den richtigen Teil.

Selective Self-Attention (SSA) ist einer der vielversprechendsten Ansätze. Entwickelt als Erweiterung des Standard-Attention-Mechanismus in Transformern, fügt SSA eine temperaturbasierte Skalierung zur Softmax-Funktion hinzu. ^[6] Klingt abstrakt, die Auswirkung ist konkret: Das Modell lernt, für jede Anfrage individuell zu entscheiden, welche Teile des Kontexts relevant sind – und welche aktiv unterdrückt werden sollen. Die Methode fügt weniger als 0,5 Prozent neue Parameter hinzu und kann über Fine-Tuning in bestehende Modelle integriert werden.

AttentionRAG geht noch einen Schritt weiter und wendet aufmerksamkeitsgesteuertes Pruning auf RAG-Systeme an. Statt dem Modell den gesamten abgerufenen Kontext zu übergeben, werden irrelevante Passagen vor der Verarbeitung entfernt – guided by attention patterns. ^[7]

Token-Level Pruning entfernt informationsarme Tokens während der Inferenz dynamisch, reduziert die Rechenkomplexität und erhält dabei die Accuracy. ^[8]

Ein umfassender Survey aus Februar 2026 dokumentiert diese Entwicklung als zwei konvergierende Strömungen: Lineare Attention-Methoden, die über Kernel-Approximationen und rekurrente Formulierungen lineare Komplexität erreichen, und Sparse-Attention-Techniken, die die Berechnung auf ausgewählte Token-Subsets beschränken. ^[9]

Das Muster ist eindeutig: Die nächste Generation von Attention-Mechanismen wird nicht breiter, sondern selektiver.

Context Engineering statt Context Maximierung

In der Praxis hat sich bereits ein Paradigmenwechsel vollzogen, der den akademischen Erkenntnissen vorausläuft. Die besten Entwickler im Umgang mit LLMs betreiben nicht Context Maximierung – sie betreiben Context Engineering.

Das Prinzip: Den richtigen Kontext zur richtigen Zeit geben, nicht maximal viel. Eine Studie der ETH Zürich belegt, dass zu viele Anweisungen in Instruktionsdateien die Aufgabe für den Agenten komplexer machen und die Performance verschlechtern. ^[10]

Konkret bedeutet das: Kontext in Schichten aufteilen. Was immer geladen sein muss (Projektkonfiguration, grundlegende Regeln) wird vom Kontext getrennt, der nur bei Bedarf geladen wird (spezifische Dokumentation, Codeabschnitte). Memory-Systeme wie Anthropics CLAUDE.md-Dateien folgen genau diesem Muster.

ACON – Agent Context Optimization – formalisiert diesen Ansatz als Optimierungsproblem und zeigt Reduktionen des Peak-Token-Verbrauchs um 26 bis 54 Prozent auf verschiedenen Benchmarks. ^[4] Das ist kein marginaler Gewinn. Das ist die Differenz zwischen einem funktionierenden und einem halluzinierenden System.

Googles Nested Learning, vorgestellt auf der NeurIPS 2025, geht noch weiter: Statt ein ML-Modell als einen kontinuierlichen Prozess zu behandeln, wird es als System vernetzter, mehrstufiger Lernprobleme modelliert, die simultan optimiert werden. ^[11] Die Architektur selbst wird zum Vergessensmechanismus – verschiedene Ebenen „vergessen" unterschiedliche Informationstypen.

Warum die Industrie trotzdem auf Größe setzt

Wenn die Forschung so klar in Richtung intelligentes Vergessen zeigt – warum dominieren in den Pressemitteilungen weiterhin die Token-Zahlen?

Die Antwort ist simpel: Größere Zahlen sind einfacher zu vermarkten. „10 Millionen Tokens" ist eine Schlagzeile. „Intelligentere Kontextnutzung mit dynamischem Pruning" erfordert einen Absatz Erklärung.

Dazu kommt ein technischer Lock-in: Die gesamte Evaluierungs-Infrastruktur – Benchmarks, Vergleichstabellen, Leaderboards – ist auf quantitative Metriken ausgerichtet. Kontextfenstergröße lässt sich vergleichen. Kontextqualität nicht.

Aber die Zeichen des Wandels sind unübersehbar. Branchenanalysen für 2026 prognostizieren, dass die Kontextfenstergrößen stagnieren werden. Der Fokus verschiebt sich auf Inference-Time-Scaling, hybride Compression-Caching-Ansätze und Memory-augmentierte Architekturen. ^[4]

Der Markt folgt immer der Physik – und die Physik sagt: Mehr Tokens bei gleichem Attention-Mechanismus bringt abnehmende Grenzerträge. Die Unternehmen, die das zuerst internalisieren, werden die nächste Generation von KI-Systemen definieren.

Was das für Entwickler bedeutet

Für jeden, der heute mit LLMs arbeitet – ob als Entwickler, Produktmanager oder Entscheider – gibt es drei konkrete Takeaways:

1. Hör auf, Kontext zu maximieren. Die Antwort auf schlechte LLM-Performance ist fast nie „mehr Kontext". Sie ist „besserer Kontext". Jeder Token, der irrelevant ist, schadet aktiv der Ergebnisqualität. Behandle dein Kontextfenster wie einen chirurgischen Eingriff, nicht wie einen Supermarkt-Einkauf.

2. Investiere in Context Engineering. Strukturiere deine Prompts, Memory-Systeme und RAG-Pipelines so, dass nur relevante Informationen geladen werden. Nutze Schichtenmodelle: dauerhafter Kontext, sessionbasierter Kontext, aufgabenspezifischer Kontext. Das zahlt sich sofort aus – in besserer Qualität und niedrigeren Kosten.

3. Beobachte die Forschung. Selective Attention, Token Pruning und Context Optimization sind keine akademischen Spielereien. Sie werden in den nächsten 12 bis 18 Monaten in Produktionsmodellen landen. Wer ihre Prinzipien heute versteht, kann seine Systeme morgen schneller adaptieren.

Die unbequeme Wahrheit bleibt: Wir haben kein Kontextfenster-Problem. Wir haben ein Vergessens-Problem. Und die Modelle, die zuerst lernen, intelligent zu vergessen, werden die sein, die wirklich verstehen.

Referenzen

PromptHub Blog: Why Long Context Windows Still Don't Work: https://www.prompthub.us/blog/why-long-context-windows-still-dont-work
Context Rot: How Increasing Input Tokens Impacts LLM Performance (Chroma Research): https://www.trychroma.com/research/context-rot
The Maximum Effective Context Window for Real World Applications (OAJ AI/ML, 2025): https://www.oajaiml.com/uploads/archivepdf/643561268.pdf
AI Agent Context Compression: Strategies for Long-Running Sessions (Zylos Research, 2026): https://zylos.ai/research/2026-02-28-ai-agent-context-compression-strategies
Anderson, M. C., Bjork, R. A., & Bjork, E. L. (1994): Retrieval-Induced Forgetting: Evidence for a Recall-Specific Mechanism. Psychonomic Bulletin & Review, 1(2), 210–214.
Selective Attention: Enhancing Transformer through Principled Context Control (arXiv, 2024): https://arxiv.org/abs/2411.12892
AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation (arXiv, 2025): https://arxiv.org/html/2503.10720v1
Token-Level Pruning in Attention Models (Preprints.org, 2025): https://www.preprints.org/manuscript/202503.0590
Efficient Attention Mechanisms for Large Language Models: A Survey (arXiv, 2026): https://arxiv.org/html/2507.19595v3
Context Engineering in Claude Code (Alex Sproges, YouTube): https://www.youtube.com/watch?v=aircAruvnKk
Introducing Nested Learning: A New ML Paradigm for Continual Learning (Google Research, NeurIPS 2025): https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/