Gemma 4
Google DeepMind · Publié 2 avril 2026 (12B Unified : 3 juin 2026)
Ce que c'est réellement
La plupart des lancements de modèles IA vous donnent un modèle et une décision : l’utiliser ou non. Gemma 4 vous en donne cinq et pose une question différente : quel matériel avez-vous ?
Cela ressemble peut-être à du marketing, mais c’est en fait la chose la plus utile de cette famille. Chaque membre est architecturalement différent — pas juste une copie agrandie de la même chose. Les modèles edge utilisent les Per-Layer Embeddings. Le 12B a jeté les encodeurs vision et audio. Le 26B route les tokens à travers un mélange de 128 experts. Le 31B lance simplement ses 30,7 milliards de paramètres sur chaque token. Même famille, philosophies d’ingénierie différentes, compromis différents.
Passons-les en revue.
E2B — L’IA de poche (~1 Go RAM)
Le plus petit Gemma 4. Deux milliards de paramètres, quantifié pour tenir dans environ 1 Go de RAM. Il gère le texte, les images et l’audio en direct — tout sur l’appareil, tout hors ligne. Score de 37,5% sur AIME 2026, c’est du raisonnement mathématique compétitif sur quelque chose qui pourrait tourner sur un Raspberry Pi. Le secret : les Per-Layer Embeddings (PLE), qui donnent à chaque couche du décodeur son propre embedding dédié pour maximiser l’intelligence sans gonfler le nombre de paramètres. Vous ne le confondrez pas avec un modèle de bureau, mais pour les traductions rapides, les questions sur les photos, ou les requêtes vocales sur un téléphone à petit budget, il est vraiment utile.
E4B — La puissance dans la poche (4–6 Go RAM)
Le E4B, c’est ce qui arrive quand on donne à un modèle optimisé pour téléphone assez de paramètres pour réellement réfléchir. Il score 42,5% sur AIME 2026 — plus du double du modèle 27B, bien plus gros, de Gemma 3. Il gère texte, images et audio nativement, a une fenêtre de contexte de 128K, et inclut un mode thinking configurable pour le raisonnement multi-étapes. Si vous avez un smartphone haut de gamme avec 8+ Go de RAM, c’est le modèle qui fait de « je vais juste demander à mon téléphone — hors ligne » une option sérieuse plutôt qu’un gadget de foire.
12B Unified — Le game-changer laptop (~7 Go VRAM avec QAT)
C’est ici que Gemma 4 devient passionnant pour la plupart des gens. Sorti le 3 juin 2026, le 12B Unified fait quelque chose qu’aucun autre modèle de sa taille ne fait : il gère texte, images et audio dans un seul transformer decoder-only sans encodeurs séparés. Les patches d’images bruts et les formes d’onde audio vont directement dans l’espace d’embedding via des couches linéaires légères. Architecture plus simple, latence plus faible, fine-tuning plus facile.
Les chiffres : 77,2% MMLU Pro, 77,5% AIME 2026, 72,0% LiveCodeBench, 78,8% GPQA Diamond. Google dit qu’il approche le 26B MoE « avec moins de la moitié de l’empreinte mémoire totale ». Avec la variante officielle QAT (Quantization-Aware Training) sortie le 5 juin, la version Q4_0 nécessite environ 6,7 Go de VRAM. Combinez ça avec le Multi-Token Prediction pour le décodage spéculatif, et les benchmarks communautaires montrent 100–130+ tokens par seconde sur un GPU de 12 Go comme la RTX 4070 Super. Ça tourne même sur les laptops avec 16 Go de mémoire unifiée — pas de GPU dédié requis.
Si vous voulez un seul modèle de cette famille et que vous avez un laptop avec un GPU correct, c’est celui-ci.
26B MoE — L’expert en efficacité (15–18 Go VRAM quantifié)
Le 26B contient 26 milliards de paramètres au total, mais voici l’astuce : seulement 3,8 milliards s’activent par token. Un routeur sélectionne 2 des 128 sous-réseaux d’experts pour chaque token, délivrant une qualité proche du 31B à un coût de calcul drastiquement inférieur. Imaginez un immeuble plein de spécialistes et vous n’appelez que les deux dont vous avez besoin pour chaque question.
Il supporte texte, images et vidéo (pas juste l’audio comme les modèles plus petits), a une fenêtre de contexte de 256K, et se classe n°6 parmi les modèles ouverts sur Arena AI. Le compromis, c’est la VRAM — il faut 15–18 Go quantifié, ce qui signifie une RTX 4090, une RTX 5060 Ti 16 Go, ou un Mac avec 32 Go+ de mémoire unifiée. Si vous avez le matériel et voulez le meilleur ratio intelligence-par-watt, c’est votre modèle.
31B Dense — Le géant sans compromis (16–20 Go VRAM quantifié)
Pas de routage, pas de mélange d’experts, pas de raccourcis. Le 31B Dense active ses 30,7 milliards de paramètres sur chaque token. C’est le plafond de qualité de la famille Gemma 4 — classé n°3 parmi tous les modèles ouverts sur Arena AI et scorant 89,2% sur AIME 2026. Mêmes modalités que le 26B (texte, images, vidéo), même contexte de 256K, mais avec une profondeur de raisonnement maximale à chaque réponse.
Le coût, c’est le calcul. En BF16, il faut ~71 Go de VRAM (territoire GPU enterprise). Mais quantifié en INT4, il tient dans 16–20 Go — gérable sur un GPU grand public haut de gamme. Si vous avez le matériel et que la précision compte plus que la vitesse, c’est le modèle ouvert qui se rapproche le plus des performances cloud de pointe.
Lequel choisir ?
Voici l’antisèche honnête :
- Téléphone, hors ligne, tâches rapides → E4B (ou E2B pour les appareils très limités)
- Laptop, GPU 8–12 Go → 12B Unified avec QAT
- Laptop, 16 Go mémoire unifiée, sans GPU → 12B Unified avec QAT (plus lent mais ça marche)
- Station de travail, RTX 4090 / Mac 32 Go → 26B MoE (meilleure qualité par watt)
- Serveur ou station haut de gamme → 31B Dense (qualité maximale)
Les cinq partagent la licence Apache 2.0, supportent 140+ langues, et fonctionnent avec Ollama, llama.cpp, LM Studio, vLLM et le toolkit AI Edge de Google. La famille n’est pas d’accord sur l’architecture — mais partage la même philosophie : de l’IA sérieuse qui tourne sur votre matériel.
Points Forts
- E2B — l’IA sur téléphone à petit budget (1 Go RAM) : Le plus petit de la famille tient quantifié dans ~1 Go de RAM. Texte, images et audio — tout sur l’appareil, tout hors ligne. Score de 37,5% sur AIME 2026, ce qui aurait été impressionnant pour un modèle de bureau il y a deux ans. Utilise les Per-Layer Embeddings (PLE) pour maximiser l’intelligence avec un minimum de paramètres. Idéal pour l’IoT, Raspberry Pi et les appareils Android à petit budget.
- E4B — l’IA de smartphone haut de gamme (4–6 Go RAM) : Le point idéal pour le mobile. Score de 42,5% sur AIME 2026 — plus du double du modèle 27B de Gemma 3. Gère texte, images et audio nativement. Fenêtre de contexte de 128K. Mode thinking intégré pour le raisonnement complexe. C’est un assistant IA véritablement capable qui tourne entièrement sur votre téléphone sans internet. Si vous avez un flagship moderne, c’est votre modèle.
- 12B Unified — le game-changer laptop (~7 Go VRAM avec QAT) : La star de la famille. Architecture encoder-free — pas d’encodeurs vision ou audio séparés. Un seul transformer gère texte, images et audio nativement. La variante QAT tourne avec ~6,7 Go VRAM (Q4_0), tenant sur une RTX 4070 de 12 Go ou un laptop avec 16 Go de mémoire unifiée. Le décodage spéculatif MTP délivre 100–130+ tok/s. Scores de 77,2% MMLU Pro, 77,5% AIME 2026, 72,0% LiveCodeBench. Approche le 26B MoE à la moitié de la mémoire.
- 26B MoE — l’expert en efficacité (15–18 Go VRAM quantifié) : 26 milliards de paramètres au total, mais seulement 3,8 milliards s’activent par token. Un routeur sélectionne 2 des 128 experts par couche, offrant une qualité proche du 31B à une fraction du calcul. Supporte texte, images et vidéo. Contexte de 256K. Classé n°6 parmi les modèles ouverts. Idéal pour les développeurs avec une RTX 4090 ou un Mac avec 32 Go qui veulent le meilleur ratio qualité/vitesse.
- 31B Dense — le plafond de qualité (16–20 Go VRAM quantifié) : Chacun des 30,7 milliards de paramètres s’active à chaque token. Pas de routage, pas de raccourcis — profondeur de raisonnement maximale. Classé n°3 parmi les modèles ouverts. 89,2% sur AIME 2026. Texte, images, vidéo. Contexte de 256K. Si vous avez la VRAM (RTX 4090 ou Mac 64 Go), c’est le modèle ouvert qui se rapproche le plus des modèles cloud de pointe.
-
AIME 2026 — 31B : 89,2%, 12B : 77,5%, E4B : 42,5%, E2B : 37,5% Mathématiques compétitives. Montre clairement l'échelle de qualité à travers la famille — du format téléphone au format serveur. Le 12B atteint un niveau mathématique sérieux depuis un laptop.
-
MMLU Pro — 12B : 77,2% Raisonnement de niveau professionnel. Le 12B approche le 26B MoE (~97% de son score) en utilisant moins de la moitié de la mémoire. Intelligence par paramètre exceptionnelle.
-
LiveCodeBench v6 — 12B : 72,0% Évaluation de codage réel. Le 12B est un assistant de codage local légitimement capable — assez puissant pour le travail de développement quotidien sans dépendance au cloud.
-
GPQA Diamond — 12B : 78,8% Questions-réponses scientifiques de niveau doctorat. Des scores qui auraient été de niveau frontier il y a un an, tournant sur du matériel grand public avec quantification QAT.
-
Arena AI — 31B : n°3, 26B MoE : n°6 (modèles ouverts) Comparaison participative en tête-à-tête. Le 31B est au sommet parmi les modèles ouverts ; le 26B MoE arrive à 1–2% près avec une fraction du calcul.
-
Codeforces ELO — 12B : 1659 Programmation compétitive. Assez puissant pour résoudre des problèmes algorithmiques non triviaux localement. Les 26B/31B scorent encore plus haut.
Limites Honnêtes
- Les modèles edge échangent profondeur contre portabilité : E2B et E4B n’égaleront pas le 12B sur le raisonnement complexe, le codage multi-étapes ou l’analyse approfondie. Ils sont optimisés pour la qualité par octet, pas la qualité absolue. Excellents pour les tâches rapides, pas pour la recherche.
- Le 12B nécessite un vrai GPU (ou un laptop costaud) : Même avec QAT, il faut ~7 Go de VRAM libre pour l’inférence. Cela signifie un GPU dédié (classe GTX 1080+) ou un laptop avec 16 Go+ de mémoire unifiée. Les graphiques intégrés ne suffiront pas pour des vitesses utilisables.
- 26B/31B nécessitent du matériel sérieux : Quantifiés, comptez 15–20 Go de VRAM. Non quantifié (BF16), le 31B nécessite ~71 Go. Ce sont des modèles de station de travail ou laptop haut de gamme, pas pour une configuration à petit budget.
- Pas de vidéo sur edge ou 12B : La compréhension vidéo n’est disponible que sur les 26B et 31B. Les modèles plus petits gèrent texte, images et audio uniquement.
- Outillage Google préféré : Meilleur support via MediaPipe, LiteRT, Google AI Edge SDK et AI Studio. Ollama, llama.cpp et LM Studio fonctionnent bien, mais attendez-vous à quelques aspérités par rapport au chemin optimisé Google.
- Pas conçu pour les sessions marathon : Contrairement aux modèles cloud de pointe qui font tourner des sprints de codage autonomes sur plusieurs jours, Gemma 4 est conçu pour l’inférence simple et multi-tours — pas pour des marathons agentiques soutenus.
Le Verdict: Gemma 4 est la famille de modèles ouverts la plus pratique sortie cette année — non pas parce qu’un seul modèle est le meilleur en tout, mais parce qu’il y a un Gemma pour chaque situation. Vous construisez un assistant téléphonique hors ligne ? E4B. Besoin d’un compagnon de codage privé sur votre laptop avec un GPU de 12 Go ? Le 12B Unified avec QAT. Vous avez une station avec une RTX 4090 et voulez la qualité maximale par watt ? Le 26B MoE. Besoin du raisonnement ouvert de classe frontier absolue ? Le 31B Dense. Les architectures sont différentes (PLE, encoder-free, MoE, dense), les besoins matériels sont différents (1 Go à 71 Go), mais ils partagent la même licence (Apache 2.0), le même support multilingue (140+), et la même philosophie : de l’IA sérieuse qui tourne sur votre matériel, pas le cloud de quelqu’un d’autre.