Gemma 4: KI-Mitbewohner ohne Cloud | Blog medina.consults.de

Wenn Google Anfang April 2026 die Gemma-4-Familie vorstellt, reden alle über Benchmarks. Platz 3 auf dem Arena AI Text Leaderboard. 31 Milliarden Parameter. Apache 2.0. Die üblichen Superlative. ^[1] Was dabei untergeht: Gemma 4 ist das erste Modell einer großen Foundation, das ernsthaft dafür gebaut wurde, dauerhaft in deinem Zuhause zu leben. Nicht als Cloud-Proxy. Nicht als API-Aufruf. Sondern als lokaler, persistierender Prozess auf Hardware, die in deine Schublade passt.

Das klingt nach einem Nischenthema. Es ist das Gegenteil. Denn die Frage, ob eine KI auf einem Server in Virginia oder auf einem Raspberry Pi in deinem Flur läuft, ist keine technische Fußnote. Sie entscheidet darüber, wer deine Daten besitzt, wer dein Verhalten kennt und wer die Kontrolle hat. Gemma 4 beantwortet diese Frage zum ersten Mal glaubwürdig zugunsten des Nutzers.

Das Edge-Versprechen wird endlich real

Die Idee von On-Device AI existiert seit Jahren. Bisher war sie eine Lüge. Die Modelle waren zu groß, zu langsam oder zu dumm für alles, was über „Hey Siri, Timer auf fünf Minuten" hinausging. Gemma 4 ändert das – nicht durch einen einzelnen Durchbruch, sondern durch die Konvergenz von vier Faktoren.

Erstens: Das E2B-Modell mit effektiv 2 Milliarden Parametern läuft mit unter 1,5 Gigabyte RAM. ^[2] Nicht auf einer 4.000-Euro-GPU, sondern auf einem Raspberry Pi 5 – einem Gerät, das 80 Euro kostet und so viel Strom verbraucht wie eine LED-Lampe. Googles LiteRT-LM Runtime macht das möglich, mit 2-Bit- und 4-Bit-Quantisierung und Memory-Mapped Per-Layer Embeddings.

Zweitens: Die Performance ist kein Witz mehr. Auf dem Raspberry Pi 5 schafft das E2B-Modell 133 Prefill- und 7,6 Decode-Tokens pro Sekunde auf der CPU. Mit NPU-Beschleunigung auf einem Qualcomm Dragonwing IQ8 explodiert das auf 3.700 Prefill- und 31 Decode-Tokens pro Sekunde. ^[3] Das ist schnell genug für Echtzeitgespräche, Bildanalyse und strukturierte Ausgaben – auf einem Chip, der in ein Smartphone passt.

Drittens: Multimodalität. Die Edge-Modelle verarbeiten nicht nur Text, sondern auch Bilder und – bei den E2B- und E4B-Varianten – Audio. ^[1] Eine KI, die sieht und hört, ohne dass ein einziges Byte an einen externen Server geht. Das ist nicht inkrementell. Das ist ein Paradigmenwechsel für alles, was mit dem Wort „Smart" vor „Home" steht.

Viertens: 128K Token Kontextfenster. ^[2] Das bedeutet, ein lokal laufendes Modell kann nicht nur den aktuellen Befehl verstehen, sondern den gesamten Kontext einer mehrstündigen Interaktion im Gedächtnis behalten. Es kann sich erinnern, dass du heute Morgen gesagt hast, du hast Migräne – und abends das Licht automatisch dimmen.

Der digitale Hausverwalter

Stell dir vor, was passiert, wenn ein Modell wie Gemma 4 nicht einmalig aufgerufen wird, sondern dauerhaft läuft. Auf einem kleinen Server im Keller. Angebunden an Home Assistant, an dein Energiemanagement, an deine Kalender-API. 24 Stunden am Tag, 7 Tage die Woche.

Dieses Modell wird nicht schlauer im Sinne von Parameterzahlen. Aber es wird intimer. Es lernt – durch Kontextakkumulation und lokales Fine-Tuning –, dass du donnerstags spät nach Hause kommst. Dass du nach 22 Uhr warmes Licht bevorzugst. Dass du im Winter die Heizung im Büro abstellst, sobald du den Raum verlässt, aber im Schlafzimmer eine Stunde vorheizt. Es kennt dein Energieprofil, deine Routinen, deine Abweichungen von der Routine.

Das ist kein Science-Fiction-Szenario. Gemma 4 unterstützt nativ Function Calling, strukturierte JSON-Ausgabe und System Instructions. ^[4] Es kann als Agent agieren – Multi-Step-Planning betreiben, APIs aufrufen, auf Sensordaten reagieren. Die Architektur für einen privaten, persistierenden KI-Hausverwalter existiert. Es fehlt nicht an Technologie. Es fehlt daran, dass die Industrie diesen Use Case bisher ignoriert hat, weil er kein Abo-Modell hergibt.

Und genau hier liegt die eigentliche Revolution. Nicht in der Leistungsfähigkeit pro Parameter. Sondern in der Intimität und Kontinuität, die entsteht, wenn eine KI nicht pro Anfrage abgerechnet wird, sondern permanent präsent ist.

Datensouveränität ist kein Luxus

Gemma 4 Raspberry Pi Heimserver Smart Home

Jedes Mal, wenn du Alexa sagst, dass du das Licht im Schlafzimmer dimmen sollst, geht dieses Kommando über Amazons Server. Es wird transkribiert, verarbeitet, gespeichert, analysiert. Amazon weiß, wann du ins Bett gehst. Google weiß, wann du dein Haus verlässt. Apple weiß, welche Musik du beim Kochen hörst. Diese Datenpunkte sind einzeln trivial. In der Aggregation über Monate und Jahre ergeben sie ein Profil, das intimer ist als alles, was du freiwillig preisgeben würdest. ^[5]

Gemma 4 unter Apache 2.0 bricht diese Dynamik auf. Nicht durch ein Versprechen – die Tech-Industrie hat genug davon gebrochen –, sondern durch Architektur. Wenn das Modell lokal läuft, existiert kein Datenfluss nach außen. Nicht weil Google nett ist, sondern weil die Physik es verhindert. Der Raspberry Pi in deinem Flur hat keine Verbindung zu Googles Servern. Die Inferenz passiert auf deiner Hardware. Die Daten bleiben in deinem Netzwerk. ^[6]

Das ist ein fundamentaler Unterschied zu der „Privacy"-Rhetorik, die wir von Cloud-Anbietern kennen. „Wir verarbeiten deine Daten sicher" heißt: Wir haben deine Daten. „Das Modell läuft lokal" heißt: Niemand hat deine Daten außer dir. Das eine ist ein Versprechen. Das andere ist eine technische Tatsache.

Für Unternehmen in regulierten Branchen – Gesundheit, Recht, Finanzen – ist das nicht philosophisch, sondern existenziell. Ein Arzt, der Patientendaten durch eine Cloud-API schickt, verstößt potenziell gegen die DSGVO. Ein Anwalt, der Mandantenakten an GPT-4 weiterleitet, riskiert seine Zulassung. Gemma 4 auf einem lokalen Server löst dieses Problem an der Wurzel, nicht mit Compliance-Dokumenten. ^[6]

Der Gegenentwurf zur Cloud-Hegemonie

Die großen KI-Modelle der letzten Jahre haben ein Muster etabliert: Zentralisierung. GPT-4, Claude, Gemini – sie laufen auf Servern, die von wenigen Unternehmen kontrolliert werden. Der Nutzer mietet Zugang. Die Daten fließen nach oben. Die Wertschöpfung bleibt beim Anbieter.

Dieses Modell hat seinen Preis. Nicht nur finanziell – obwohl die Kosten pro Token für Unternehmen mit hohem Volumen schnell sechsstellig werden. Sondern strukturell. Wer von einer Cloud-API abhängt, ist abhängig von deren Pricing, deren Verfügbarkeit, deren Ethik-Richtlinien, deren Geschäftsentscheidungen. OpenAI ändert seine Nutzungsbedingungen? Pech gehabt. Anthropic erhöht die Preise? Zahlen oder gehen.

Gemma 4 ist der erste ernsthafte Gegenentwurf aus dem Haus eines der größten Cloud-Anbieter selbst. Das ist paradox – und verdient deshalb besondere Aufmerksamkeit. Google verschenkt ein Modell, das die Notwendigkeit seiner eigenen Cloud-Dienste in bestimmten Anwendungsfällen eliminiert. ^[7]

Die Strategie dahinter ist durchschaubar: Google will das Ökosystem kontrollieren, nicht die Inferenz. Wer auf Gemma entwickelt, bleibt im Google-Orbit – TensorFlow, Vertex AI, Android AICore. Aber das ändert nichts an der technischen Realität: Ein unter Apache 2.0 lizenziertes Modell kann nicht zurückgenommen werden. Die Community hat es. Und sie baut damit, was Google sich vielleicht nie vorgestellt hat.

Die Open-Source-Community hat innerhalb von 48 Stunden nach dem Release bereits Gemma 4 in Ollama integriert, mit OpenClaw-Agenten kombiniert und auf Consumer-Hardware für produktive Workflows eingesetzt. ^[8] Das 26B-MoE-Modell, das nur 3,8 Milliarden Parameter während der Inferenz aktiviert, läuft auf einem 24-GB-Mac-Mini und schlägt Modelle, die zwanzigmal größer sind. ^[4] Für einen Heimserver, der neben dem Smart-Home-Controller auch als Code-Assistent, Recherche-Agent und persönlicher Wissensmanager dient, ist das mehr als genug.

Die Intimität als Designprinzip

Was Gemma 4 von früheren lokalen Modellen unterscheidet, ist nicht die Performance allein. Es ist die Tatsache, dass Google das Modell explizit für persistierende, agentenbasierte Workflows designed hat. Native System Instructions, Function Calling, strukturierte Ausgaben – das sind keine Gimmicks. Das sind die Bausteine für eine KI, die nicht antwortet, sondern mitdenkt. ^[3]

Stell dir einen Heimserver vor, auf dem Gemma 4 als permanenter Agent läuft. Er überwacht deinen Stromverbrauch und erkennt Anomalien – ein Gerät, das plötzlich mehr zieht als üblich, könnte defekt sein. Er koordiniert deine Smart-Home-Geräte nicht nach starren Zeitplänen, sondern adaptiv: Wenn du an einem Freitag früher nach Hause kommst, fährt die Heizung entsprechend hoch. Wenn du im Urlaub bist, simuliert er Anwesenheit – nicht mit einem Timer, sondern mit einem realistischen Muster, das aus deinem tatsächlichen Verhalten abgeleitet ist.

Das klingt nach dem, was Google Nest und Amazon Alexa seit Jahren versprechen. Der Unterschied: Bei Nest lernt Googles Cloud dein Verhalten. Bei Gemma 4 lernt dein Gerät dein Verhalten. Dieser Unterschied ist nicht graduell. Er ist kategorial. Es ist der Unterschied zwischen einem Vermieter, der einen Schlüssel zu deiner Wohnung hat, und einem Schloss, dessen einzigen Schlüssel du besitzt.

Was jetzt passieren muss

Gemma 4 liefert die technische Grundlage. Was fehlt, ist das Ökosystem. Home Assistant, die größte Open-Source-Smart-Home-Plattform, müsste Gemma 4 als nativen Agenten integrieren – nicht als externen API-Call, sondern als eingebetteten Reasoning-Layer. Die Hardware-Hersteller müssten Geräte anbieten, die auf Gemma-Inferenz optimiert sind – ein „Smart Home Hub" mit NPU statt mit Cloud-Abo.

Und die Nutzer müssten umdenken. Weg von der Erwartung, dass KI bedeutet, eine Frage zu stellen und eine Antwort zu bekommen. Hin zu der Vorstellung, dass KI ein kontinuierlicher, stiller Prozess ist, der im Hintergrund läuft und das eigene Zuhause versteht – nicht weil man es konfiguriert hat, sondern weil es zugehört hat.

Gemma 4 macht das zum ersten Mal technisch möglich. Ob es gesellschaftlich möglich wird, hängt davon ab, ob wir bereit sind, unsere Vorstellung von KI zu ändern. Die Revolution liegt nicht in der Leistung. Sie liegt in der Intimität. Und Intimität erfordert Vertrauen. Vertrauen erfordert Kontrolle. Und Kontrolle erfordert, dass die KI bei dir zu Hause bleibt.

Referenzen

Gemma 4: Byte for byte, the most capable open models – Google Blog, April 2026
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Bring state-of-the-art agentic skills to the edge with Gemma 4 – Google Developers Blog, April 2026
https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/
Gemma 4 Edge Deployment: Mobile, Raspberry Pi & IoT Guide – Lushbinary, April 2026
https://lushbinary.com/blog/gemma-4-edge-deployment-mobile-iot-on-device-ai-guide/
Google just dropped Gemma 4 – YouTube-Analyse der Modellarchitektur und Benchmarks, April 2026
https://www.youtube.com/watch?v=BrJdGP21B5g
Google Open Sources Gemma 4 For Private Local AI Workloads – Open Source For You, April 2026
https://www.opensourceforu.com/2026/04/google-open-sources-gemma-4-for-private-local-ai-workloads/
Gemma 4 – Google DeepMind Modellseite, April 2026
https://deepmind.google/models/gemma/gemma-4/
Google's bold Gemma 4 bet targets Meta's hold on developers – Rolling Out, April 2026
https://rollingout.com/2026/04/02/google-gemma-4-open-ai-model-launch/
Gemma 4 + Hermes/OpenClaw: Fully Local AI Agent that Actually Works – YouTube-Demonstration lokaler Agent-Workflows, April 2026
https://www.youtube.com/watch?v=x3IG3elJvZk