Tool Calling und die unsichtbare Schnittstelle der KI-Agenten

Die gesamte KI-Branche optimiert gerade an der falschen Stelle. Bessere JSON-Schemata, ausgefeiltere Tool-Definitionen, standardisierte Protokolle – alles dreht sich darum, wie ein Agent ein Tool möglichst präzise aufruft. Aber die eigentliche Frage ist eine andere: Warum muss er überhaupt noch rufen?

Die aktuelle Architektur von KI-Agenten basiert auf einem Prinzip aus der Software-Steinzeit: Ein System denkt, formuliert eine Anfrage, sendet sie an ein anderes System, wartet auf die Antwort, denkt wieder. Das ist nicht intelligent. Das ist Bürokratie mit Latenz. [1]

Der Status quo: Tool Calling als notwendiges Übel

So funktioniert Tool Calling heute, Stand April 2026: Ein LLM erhält eine Aufgabe. Es analysiert die verfügbaren Tools – definiert als JSON-Schemata mit Parametern, Beschreibungen und Rückgabetypen. Es wählt das passende Tool, formuliert den Aufruf, das Backend führt aus, das Ergebnis fließt zurück ins Modell. Für den nächsten Schritt beginnt der Zyklus von vorn. [2]

Das funktioniert. Meistens. Aber jeder Zyklus kostet Tokens, Zeit und Kontext. Bei einem Workflow mit zehn Tool-Aufrufen wandert das Zwischenergebnis jedes Mal durch das neuronale Netz – nur um als Input für den nächsten Aufruf kopiert zu werden. Das ist, als würde ein Manager jeden Handgriff einzeln absegnen, statt dem Team einfach den Auftrag zu geben.

Die Zahlen machen das Problem greifbar: Cloudflare hat mit ihrem „Code Mode"-Ansatz gezeigt, dass die Token-Nutzung bei komplexen Batch-Operationen um 81 Prozent sinkt, wenn das Modell statt einzelner Tool-Aufrufe Code schreibt, der mehrere Operationen bündelt. [3] 81 Prozent weniger Overhead – nicht durch ein besseres Modell, sondern durch das Eliminieren der Schnittstelle selbst.

Code Mode: Der erste Riss in der Mauer

Cloudflare hat mit Code Mode einen Paradigmenwechsel eingeleitet, den die meisten noch unterschätzen. Statt Tools als JSON-Definitionen zu exponieren, werden sie als TypeScript-API bereitgestellt. Das LLM schreibt Code, der diese API aufruft – und dieser Code läuft in einer Sandbox. [4]

Der entscheidende Unterschied: Das Modell muss nicht nach jedem Zwischenschritt zurück zum LLM. Es kann Schleifen schreiben, Bedingungen prüfen, mehrere Aufrufe verketten – alles in einem einzigen Durchlauf. Mit nur zwei Tools – search() und execute() – kann ein Agent Zugriff auf eine komplette API erhalten, die sonst hunderte einzelner Tool-Definitionen bräuchte.

Aber Code Mode hat einen blinden Fleck, den ein Kritiker treffend identifiziert hat: Die Annahme, dass Workflows deterministisch sind, hält in der Realität selten stand. [5] Die Welt ist „messy". Ein Flug-Suchagent kann nicht vorab Code für alle Eventualitäten schreiben – Preisänderungen, ausgebuchte Verbindungen, neue Optionen. Die Lösung liegt nicht im perfekten Code, sondern in einem System, das den Unterschied zwischen Planen und Ausführen gar nicht mehr kennt.

Die nächste Stufe: Implizite Ausführung

Was kommt nach Tool Calling und Code Mode? Die Antwort zeichnet sich bereits ab: implizite Ausführung. Der Agent fordert kein Tool mehr an – weder per JSON noch per Code. Stattdessen wird der gesamte Workflow-Kontext zur Eingabe für ein System, das Operationen direkt ausführt.

Erste Anzeichen sind überall sichtbar. Anthropics Claude Code hat sich vom Chat-Assistenten zur autonomen Execution Loop entwickelt – ein System, das Codebases erkundet, implementiert, testet und iteriert, ohne dass ein Mensch jeden Schritt anstoßen muss. [6] Die geleakten Roadmap-Details zeigen einen „Proaktiv-Modus", in dem der Agent eigenständig nächste Schritte generiert und ausführt. Das ist keine Tool-Optimierung. Das ist die Auflösung der Grenze zwischen Denken und Handeln.

KI-Agent Kontrollraum ohne sichtbare Interfaces

Die Entwicklung folgt einem klaren Muster, das wir aus der Softwaregeschichte kennen: Jede erfolgreiche Abstraktion macht die darunterliegende Komplexität unsichtbar. Assembler wurde zu C, C zu Python, Python zu „schreib mir eine App". Tool Calling ist die nächste Schicht, die verschwinden wird.

Google hat mit Gemma 4 Modelle veröffentlicht, die Function Calling, strukturierte JSON-Ausgabe und Multi-Step-Planning nativ beherrschen – optimiert für Edge-Geräte mit begrenzten Ressourcen. [7] Wenn ein 26-Milliarden-Parameter-Modell auf Consumer-Hardware autonom agieren kann, wird die explizite Tool-Definition zum Flaschenhals, nicht zur Lösung.

LLMs als Orchestratoren: Die Tool-Schicht wird zur Commodity

Ein Aspekt, der in der Debatte untergeht: Die Zukunft der LLMs liegt nicht in besserem Weltwissen, sondern in besserer Orchestrierung. Ein KI-Experte brachte es kürzlich auf den Punkt: Die Ära bahnbrechender Fortschritte auf dem Weg zur AGI ist vorbei – die Entwicklung ähnelt nun Smartphones mit inkrementellen Verbesserungen. Der Wettbewerb verlagert sich auf Tool-Zugang und Token-Preise. [8]

Das bedeutet: Modelle werden zu spezialisierten Orchestratoren, die Weltwissen gegen Tool-Calling-Fähigkeit eintauschen. OpenAIs neueste Open-Source-Modelle halluzinieren stärker und haben weniger Allgemeinwissen – aber sie folgen Instruktionen und Tool-Aufrufen außerordentlich gut. Das ist kein Bug. Das ist die Architektur-Entscheidung hinter der nächsten Generation.

Und genau hier wird es interessant: Wenn das Modell ohnehin nur noch als Routing-Schicht fungiert, warum braucht es dann überhaupt noch eine explizite Tool-Definition? Der logische nächste Schritt ist ein System, das den verfügbaren Kontext – Aufgabe, Verlauf, Systemressourcen – direkt in Aktionen übersetzt. Nicht „Welches Tool brauche ich?", sondern „Was muss jetzt passieren?".

Speculative Tool Calling: Der Zwischenschritt

Bevor die Tool-Schicht komplett verschwindet, gibt es einen Zwischenschritt, der bereits diskutiert wird: Speculative Tool Calling. Die Idee ist simpel – man führt Tool-Aufrufe spekulativ voraus und sammelt alle Zwischenergebnisse, bevor das LLM sie validiert. [5]

Das Prinzip kennt die CPU-Architektur seit Jahrzehnten als Branch Prediction. Der Prozessor rät, welchen Pfad ein Programm nehmen wird, und führt ihn vorab aus. Liegt er richtig, spart er Zeit. Liegt er falsch, verwirft er die Ergebnisse.

Übertragen auf KI-Agenten: Statt nach jedem Tool-Aufruf auf das LLM zu warten, könnte das System die wahrscheinlichsten nächsten Schritte antizipieren und parallel ausführen. Der Agent wird zum Pipelining-System – Denken und Handeln überlappen sich, statt sequentiell abzulaufen.

Multi-Agent-Systeme wie Paperclip zeigen bereits, wie das in der Praxis aussieht: Fünf spezialisierte Agenten arbeiten parallel, orchestriert von einem CEO-Agenten, 24/7 auf eigener Infrastruktur. [9] Die Tool-Aufrufe zwischen den Agenten sind Overhead, der mit zunehmender Autonomie schrumpft.

Die Sicherheitsfrage: Wenn die Schnittstelle verschwindet

Es gibt einen Grund, warum explizites Tool Calling nicht nur eine technische Entscheidung ist, sondern auch eine Sicherheitsarchitektur. Jeder Tool-Aufruf ist ein Checkpoint – ein Punkt, an dem ein Mensch oder ein System prüfen kann, was der Agent vorhat.

Wenn diese Checkpoints verschwinden, verschwindet auch die letzte sichtbare Kontrollschicht. Das „Agent Hacking"-Problem verschärft sich: Prompt Injections in einer Welt impliziter Ausführung sind nicht mehr Angriffe auf einzelne Tool-Aufrufe, sondern auf den gesamten Workflow. [10]

Frameworks wie Hermes Agent und OpenClaw setzen deshalb auf explizite Sicherheitsschichten: MCP-Support, sandboxed Code Execution, Memory-Isolation. [11] Die Ironie: Je unsichtbarer die Schnittstelle wird, desto sichtbarer muss die Sicherheitsarchitektur sein.

Anthropics Ansatz mit Claude Sonnet 4.6 zeigt die Richtung – eine deutliche Verbesserung bei der Resistenz gegen Prompt-Injection-Angriffe, kombiniert mit einem Million-Token-Kontextfenster, das ganze Codebases in einer Anfrage verarbeiten kann. [12] Mehr Kontext, weniger einzelne Aufrufe, bessere Sicherheit. Die drei Ziele bedingen einander.

Was das für Entwickler bedeutet

Die praktische Konsequenz ist unbequem: Wer heute perfekte Tool-Definitionen und MCP-Server baut, investiert möglicherweise in eine Zwischentechnologie. Nicht falsch – MCP hat die Fragmentierung der Agenten-Integration real gelöst. Aber die nächste Abstraktion kommt schneller, als die meisten erwarten.

Die Gewinner werden nicht die sein, die die besten Tool-APIs bauen. Sondern die, die verstehen, dass der Agent der Zukunft kein „Befehlsempfänger mit Werkzeugkasten" ist, sondern eine nahtlose Ausführungsumgebung. Der Unterschied zwischen „Denken" und „Handeln" – zwischen dem LLM und seinen Tools – wird verschwinden, wie die Grenze zwischen Betriebssystem und Anwendung verschwommen ist.

Die Frage ist nicht mehr: „Wie rufe ich ein Tool optimal auf?" Die Frage ist: „Wie baue ich ein System, das gar nicht mehr rufen muss?"

Wer das begreift, baut nicht an besseren Schnittstellen. Er baut an ihrer Abschaffung.

Referenzen

  1. IBM – What Is Tool Calling? Grundlagen und Architektur des Tool Calling, 2026
    https://www.ibm.com/think/topics/tool-calling
  2. Composio – Tool Calling Explained: The Core of AI Agents (2026 Guide)
    https://composio.dev/content/ai-agent-tool-calling-guide
  3. Cloudflare – Code Mode: give agents an entire API in 1,000 tokens, 2026
    https://blog.cloudflare.com/code-mode-mcp/
  4. Cloudflare – Code Mode: the better way to use MCP, 2026
    https://blog.cloudflare.com/code-mode/
  5. Video Response: What Cloudflare's code mode misses about MCP and tool calling, 2026
    https://www.youtube.com/watch?v=0bpYCxv2qhw
  6. Anthropic – Claude Code Leak: Proaktiv-Modus und autonome Execution Loops, 2026
    https://www.youtube.com/watch?v=FRjmzUGEpHo
  7. Google Gemma 4: Kleine, leistungsstarke Open-Source-Modelle für Edge- und Agentic-Workflows, 2026
    https://www.youtube.com/watch?v=BrJdGP21B5g
  8. AGI is not coming – Einschätzung zu LLMs als Tool-Calling-Orchestratoren, 2026
    https://www.youtube.com/watch?v=hkAH7-u7t5k
  9. How To Run a Zero-Human Company – Paperclip Multi-Agent Orchestration, 2026
    https://www.youtube.com/watch?v=rx4w6zhrhPY
  10. Penligent AI – AI Agents Hacking in 2026: Defending the New Execution Boundary
    https://www.penligent.ai/hackinglabs/ai-agents-hacking-in-2026-defending-the-new-execution-boundary/
  11. Hermes Agent: Praktische Alternative zu OpenClaw mit MCP-Support und Skills, 2026
    https://www.youtube.com/watch?v=VBV4sxUBdsE
  12. Anthropic – Einführung von Claude Sonnet 4.6: Leistungsstarke KI für Coding und Agenten-Aufgaben, 2026
    https://www.anthropic.com/news/claude-sonnet-4-6