Gemma 4

Google DeepMind · Veröffentlicht 2. April 2026 (12B Unified: 3. Juni 2026)

8.1 /10 Gesamtbewertung

Was es wirklich ist

Die meisten KI-Modell-Launches geben dir ein Modell und eine Entscheidung: nutzen oder nicht. Gemma 4 gibt dir fünf Modelle und stellt eine andere Frage: Was für Hardware hast du?

Das klingt vielleicht nach Marketing, aber es ist tatsächlich das Nützlichste an dieser Familie. Jedes Mitglied ist architektonisch anders — nicht einfach eine hochskalierte Kopie desselben Dings. Die Edge-Modelle nutzen Per-Layer Embeddings. Das 12B hat Vision- und Audio-Encoder komplett über Bord geworfen. Das 26B routet Tokens durch eine Mischung aus 128 Experten. Das 31B wirft einfach alle 30,7 Milliarden Parameter auf jedes Token. Gleiche Familie, verschiedene Ingenieur-Philosophien, verschiedene Kompromisse.

Gehen wir sie der Reihe nach durch.

E2B — Die Taschen-KI (~1 GB RAM)

Das kleinste Gemma 4. Zwei Milliarden Parameter, runterquantisiert auf etwa 1 GB RAM. Es verarbeitet Text, Bilder und Live-Audio — alles auf dem Gerät, alles offline. Erreicht 37,5 % auf AIME 2026, also kompetitives mathematisches Reasoning auf etwas, das auf einem Raspberry Pi laufen könnte. Das Geheimrezept sind Per-Layer Embeddings (PLE), die jeder Decoder-Schicht ein eigenes dediziertes Embedding geben, um die Intelligenz zu maximieren, ohne die Parameterzahl aufzublähen. Du wirst es nicht mit einem Desktop-Modell verwechseln, aber für schnelle Übersetzungen, Foto-Fragen oder Sprachabfragen auf einem Budget-Handy ist es wirklich brauchbar.

E4B — Das Handy-Kraftpaket (4–6 GB RAM)

Das E4B ist das Ergebnis, wenn man einem für Handys optimierten Modell genug Parameter gibt, um tatsächlich zu denken. Es erreicht 42,5 % auf AIME 2026 — mehr als das Doppelte von Gemma 3s deutlich größerem 27B-Modell. Es verarbeitet Text, Bilder und Audio nativ, hat ein 128K Kontextfenster und enthält einen konfigurierbaren Thinking-Modus für mehrstufiges Reasoning. Wenn du ein modernes Flagship-Handy mit 8+ GB RAM hast, ist das hier das Modell, das „Ich frag einfach mein Handy — offline" von einem Partytrick zu einer echten Option macht.

12B Unified — Der Laptop-Gamechanger (~7 GB VRAM mit QAT)

Hier wird Gemma 4 für die meisten Leute richtig spannend. Veröffentlicht am 3. Juni 2026, macht das 12B Unified etwas, was kein anderes Modell dieser Größe tut: Es verarbeitet Text, Bilder und Audio in einem einzigen Decoder-Only-Transformer ohne separate Encoder. Rohe Bild-Patches und Audio-Wellenformen gehen direkt über leichtgewichtige lineare Schichten in den Embedding-Raum. Einfachere Architektur, geringere Latenz, leichteres Fine-Tuning.

Die Zahlen: 77,2 % MMLU Pro, 77,5 % AIME 2026, 72,0 % LiveCodeBench, 78,8 % GPQA Diamond. Google sagt, es kommt dem 26B MoE nahe, „bei weniger als der Hälfte des Gesamtspeicherbedarfs". Mit der offiziellen QAT-Variante (Quantization-Aware Training), veröffentlicht am 5. Juni, braucht die Q4_0-Version etwa 6,7 GB VRAM. Kombiniert mit Multi-Token Prediction für Speculative Decoding zeigen Community-Benchmarks 100–130+ Tokens pro Sekunde auf einer 12 GB GPU wie der RTX 4070 Super. Es läuft sogar auf Laptops mit 16 GB Unified Memory — keine dedizierte GPU nötig.

Wenn du ein Modell aus dieser Familie willst und einen Laptop mit einer ordentlichen GPU hast, ist das hier die Wahl.

26B MoE — Der Effizienz-Experte (15–18 GB VRAM quantisiert)

Das 26B enthält insgesamt 26 Milliarden Parameter, aber hier ist der Trick: Nur 3,8 Milliarden werden pro Token aktiviert. Ein gelernter Router wählt 2 von 128 Experten-Sub-Netzwerken für jedes Token aus und liefert so nahezu 31B-Qualität bei dramatisch geringerem Rechenaufwand. Stell es dir vor wie ein Gebäude voller Spezialisten, von denen du für jede Frage nur die zwei rufst, die du gerade brauchst.

Es unterstützt Text, Bilder und Video (nicht nur Audio wie die kleineren Modelle), hat ein 256K Kontextfenster und belegt Rang #6 unter den offenen Modellen auf Arena AI. Der Kompromiss ist VRAM — du brauchst 15–18 GB quantisiert, also eine RTX 4090, eine RTX 5060 Ti 16GB oder einen Mac mit 32 GB+ Unified Memory. Wenn du die Hardware hast und das beste Intelligenz-pro-Watt-Verhältnis willst, ist das dein Modell.

31B Dense — Der kompromisslose Gigant (16–20 GB VRAM quantisiert)

Kein Routing, kein Mixture of Experts, keine Abkürzungen. Das 31B Dense feuert alle 30,7 Milliarden Parameter bei jedem einzelnen Token. Es ist die Qualitäts-Obergrenze der Gemma 4 Familie — Rang #3 unter allen offenen Modellen auf Arena AI und 89,2 % auf AIME 2026. Dieselben Modalitäten wie das 26B (Text, Bilder, Video), dasselbe 256K Kontextfenster, aber mit maximaler Reasoning-Tiefe bei jeder Antwort.

Der Preis ist Rechenleistung. BF16 braucht ~71 GB VRAM (Enterprise-GPU-Territorium). Aber quantisiert auf INT4 passt es in 16–20 GB — machbar auf einer High-End-Consumer-GPU. Wenn du die Hardware hast und Präzision dir wichtiger ist als Geschwindigkeit, ist das hier das offene Modell, das den Frontier-Cloud-Modellen am nächsten kommt.

Welches solltest du wählen?

Hier ist der ehrliche Spickzettel:

Handy, offline, schnelle Aufgaben → E4B (oder E2B für sehr eingeschränkte Geräte)
Laptop, 8–12 GB GPU → 12B Unified mit QAT
Laptop, 16 GB Unified Memory, keine GPU → 12B Unified mit QAT (langsamer, funktioniert aber)
Workstation, RTX 4090 / 32 GB Mac → 26B MoE (beste Qualität-pro-Watt)
Server oder High-End-Workstation → 31B Dense (maximale Qualität)

Alle fünf teilen die Apache 2.0 Lizenz, unterstützen 140+ Sprachen und funktionieren mit Ollama, llama.cpp, LM Studio, vLLM und Googles AI Edge Toolkit. Die Familie ist sich bei der Architektur uneinig — aber einig bei der Philosophie: ernsthafte KI, die auf deiner Hardware läuft.

Zentrale Stärken

E2B — KI für das Budget-Handy (1 GB RAM): Das kleinste Familienmitglied passt quantisiert in ~1 GB RAM. Text, Bilder und Audio — alles auf dem Gerät, alles offline. Erreicht 37,5 % auf AIME 2026, was vor zwei Jahren für ein Desktop-Modell beeindruckend gewesen wäre. Nutzt Per-Layer Embeddings (PLE), um maximale Intelligenz aus minimalen Parametern herauszuholen. Ideal für IoT, Raspberry Pi und günstige Android-Geräte.
E4B — Flagship-Handy-KI (4–6 GB RAM): Der Sweet Spot für Mobilgeräte. Erreicht 42,5 % auf AIME 2026 — mehr als das Doppelte von Gemma 3s 27B-Modell. Verarbeitet Text, Bilder und Audio nativ. 128K Kontextfenster. Eingebauter Thinking-Modus für komplexes Reasoning. Das ist ein echtes, leistungsfähiges KI-Assistenzsystem, das komplett auf deinem Handy läuft — ohne Internet. Wenn du ein modernes Flagship hast, ist das dein Modell.
12B Unified — der Laptop-Gamechanger (~7 GB VRAM mit QAT): Der Star der Familie. Encoder-free Architektur — keine separaten Vision- oder Audio-Encoder. Ein einziger Transformer verarbeitet Text, Bilder und Audio nativ. Die QAT-Variante läuft mit ~6,7 GB VRAM (Q4_0) und passt auf eine 12 GB RTX 4070 oder einen Laptop mit 16 GB Unified Memory. MTP Speculative Decoding liefert 100–130+ tok/s. Erreicht 77,2 % MMLU Pro, 77,5 % AIME 2026, 72,0 % LiveCodeBench. Kommt dem 26B MoE nahe — bei halbem Speicherbedarf.
26B MoE — Effizienz für die Workstation (15–18 GB VRAM quantisiert): 26 Milliarden Parameter insgesamt, aber nur 3,8 Milliarden werden pro Token aktiviert. Ein gelernter Router wählt 2 von 128 Experten pro Schicht aus und liefert so nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Unterstützt Text, Bilder und Video. 256K Kontext. Rang #6 unter den offenen Modellen. Ideal für Entwickler mit einer RTX 4090 oder einem Mac mit 32 GB, die das beste Qualität-zu-Geschwindigkeit-Verhältnis wollen.
31B Dense — die Qualitäts-Obergrenze (16–20 GB VRAM quantisiert): Alle 30,7B Parameter feuern bei jedem Token. Kein Routing, keine Abkürzungen — maximale Reasoning-Tiefe. Rang #3 unter den offenen Modellen. 89,2 % auf AIME 2026. Text, Bilder, Video. 256K Kontext. Wenn du den VRAM hast (RTX 4090 oder 64 GB Mac), ist das das offene Modell, das den Frontier-Cloud-Modellen am nächsten kommt.

Benchmark-Übersicht

AIME 2026 — 31B: 89.2%, 12B: 77.5%, E4B: 42.5%, E2B: 37.5% Wettbewerbsmathematik. Zeigt die klare Qualitätsleiter innerhalb der Familie — vom Handy-Format bis zur Server-Klasse. Das 12B erreicht ernsthaftes Mathe-Niveau vom Laptop aus.
MMLU Pro — 12B: 77.2% Professionelles Wissens-Reasoning. Das 12B kommt dem 26B MoE nahe (~97 % seines Ergebnisses), bei weniger als der Hälfte des Speicherbedarfs. Außergewöhnliche Intelligenz-pro-Parameter.
LiveCodeBench v6 — 12B: 72.0% Praxisnahe Coding-Bewertung. Das 12B ist ein ernstzunehmender lokaler Coding-Assistent — stark genug für die tägliche Entwicklungsarbeit ohne Cloud-Abhängigkeit.
GPQA Diamond — 12B: 78.8% Wissenschaftsfragen auf Graduierten-Niveau. Ergebnisse, die vor einem Jahr Frontier-Niveau gewesen wären, laufen jetzt auf Consumer-Hardware mit QAT-Quantisierung.
Arena AI — 31B: #3, 26B MoE: #6 (offene Modelle) Crowdbasierter Direktvergleich. Das 31B gehört zur Spitze unter den offenen Modellen; das 26B MoE liegt bei 1–2 % Abstand — bei einem Bruchteil der Rechenleistung.
Codeforces ELO — 12B: 1659 Wettbewerbsprogrammierung. Stark genug, um nichttriviale algorithmische Probleme lokal zu lösen. Das 26B/31B schneidet noch besser ab.

Ehrliche Einschränkungen

Edge-Modelle tauschen Tiefe gegen Portabilität: E2B und E4B können beim komplexen Reasoning, mehrstufigem Coding oder tiefgehender Analyse nicht mit dem 12B mithalten. Sie sind auf Qualität-pro-Byte optimiert, nicht auf absolute Qualität. Großartig für schnelle Aufgaben, nicht für Forschung.
Das 12B braucht eine echte GPU (oder einen kräftigen Laptop): Selbst mit QAT brauchst du ~7 GB freien VRAM für Inferenz. Das bedeutet eine dedizierte GPU (GTX 1080+ Klasse) oder einen Laptop mit 16 GB+ Unified Memory. Integrierte Grafik schafft keine brauchbaren Geschwindigkeiten.
26B/31B brauchen ernsthafte Hardware: Quantisiert brauchst du 15–20 GB VRAM. Unquantisiert (BF16) braucht das 31B ~71 GB. Das sind Workstation- oder High-End-Laptop-Modelle — nichts für ein Budget-Setup.
Kein Video bei Edge oder 12B: Video-Verständnis gibt es nur beim 26B und 31B. Die kleineren Modelle verarbeiten nur Text, Bilder und Audio.
Google-Tooling bevorzugt: Am besten unterstützt über MediaPipe, LiteRT, Google AI Edge SDK und AI Studio. Ollama, llama.cpp und LM Studio funktionieren problemlos, aber erwarte gelegentlich Ecken und Kanten im Vergleich zum Google-optimierten Pfad.
Nicht für Marathon-Sessions gebaut: Anders als Frontier-Cloud-Modelle, die mehrtägige autonome Coding-Sprints durchhalten, ist Gemma 4 für Einzel- und Multi-Turn-Inferenz ausgelegt — nicht für ausdauernde agentische Marathons.

Das Fazit: Gemma 4 ist die praktischste Open-Model-Familie, die dieses Jahr erschienen ist — nicht weil ein einzelnes Modell bei allem das Beste wäre, sondern weil es für jede Situation ein Gemma gibt. Einen Offline-Handy-Assistenten bauen? E4B. Einen privaten Coding-Begleiter auf dem Laptop mit 12 GB GPU? Das 12B Unified mit QAT. Eine Workstation mit RTX 4090 und maximale Qualität pro Watt? Das 26B MoE. Absolutes Frontier-Reasoning mit offenen Gewichten? Das 31B Dense. Die Architekturen sind verschieden (PLE, encoder-free, MoE, Dense), die Hardware-Anforderungen sind verschieden (1 GB bis 71 GB), aber sie teilen dieselbe Lizenz (Apache 2.0), dieselbe Mehrsprachigkeit (140+) und dieselbe Philosophie: ernsthafte KI, die auf deiner Hardware läuft — nicht in der Cloud von jemand anderem.