Gemma 4
Google DeepMind · Lanzado 2 de abril de 2026 (12B Unified: 3 de junio de 2026)
Lo que realmente es
La mayoría de los lanzamientos de modelos de IA te dan un modelo y una decisión: úsalo o no. Gemma 4 te da cinco modelos y hace una pregunta diferente: ¿qué hardware tienes?
Puede sonar a marketing, pero en realidad es lo más útil de esta familia. Cada miembro tiene una arquitectura diferente — no son simplemente copias escaladas de lo mismo. Los modelos edge usan Per-Layer Embeddings. El 12B eliminó por completo los encoders de visión y audio. El 26B enruta los tokens a través de una mezcla de 128 expertos. El 31B simplemente lanza sus 30,7 mil millones de parámetros contra cada token. Misma familia, filosofías de ingeniería diferentes, trade-offs diferentes.
Vamos a recorrerlos.
E2B — La IA de bolsillo (~1 GB de RAM)
El Gemma 4 más pequeño. Dos mil millones de parámetros, cuantizado para caber en aproximadamente 1 GB de RAM. Maneja texto, imágenes y audio en vivo — todo en el dispositivo, todo sin conexión. Obtiene 37,5 % en AIME 2026, que es razonamiento de matemáticas competitivas en algo que podría correr en una Raspberry Pi. La salsa secreta es Per-Layer Embeddings (PLE), que da a cada capa del decoder su propio embedding dedicado para maximizar la inteligencia sin inflar la cantidad de parámetros. No lo confundirás con un modelo de escritorio, pero para traducciones rápidas, preguntas sobre fotos o consultas por voz en un teléfono económico, es genuinamente útil.
E4B — La potencia de bolsillo (4–6 GB de RAM)
El E4B es lo que pasa cuando le das a un modelo optimizado para teléfono suficientes parámetros para realmente pensar. Obtiene 42,5 % en AIME 2026 — más del doble que el modelo 27B mucho más grande de Gemma 3. Maneja texto, imágenes y audio de forma nativa, tiene una ventana de contexto de 128K e incluye un modo de razonamiento configurable para razonamiento multi-paso. Si tienes un teléfono insignia moderno con 8+ GB de RAM, este es el modelo que convierte “le pregunto a mi teléfono — sin conexión” en una opción seria en vez de un truco de fiesta.
12B Unified — El que cambió el juego para laptops (~7 GB de VRAM con QAT)
Aquí es donde Gemma 4 se pone emocionante para la mayoría. Lanzado el 3 de junio de 2026, el 12B Unified hace algo que ningún otro modelo de su tamaño hace: maneja texto, imágenes y audio en un solo transformer decoder-only sin encoders separados. Los parches de imagen crudos y las ondas de audio van directo al espacio de embeddings a través de capas lineales ligeras. Arquitectura más simple, menor latencia, fine-tuning más fácil.
Los números: 77,2 % en MMLU Pro, 77,5 % en AIME 2026, 72,0 % en LiveCodeBench, 78,8 % en GPQA Diamond. Google dice que se acerca al 26B MoE “con menos de la mitad del footprint total de memoria.” Con la variante oficial QAT (Quantization-Aware Training) lanzada el 5 de junio, la versión Q4_0 necesita aproximadamente 6,7 GB de VRAM. Combina eso con Multi-Token Prediction para decodificación especulativa, y los benchmarks de la comunidad muestran 100–130+ tokens por segundo en una GPU de 12 GB como la RTX 4070 Super. Incluso corre en laptops con 16 GB de memoria unificada — sin necesidad de GPU dedicada.
Si quieres un solo modelo de esta familia y tienes una laptop con una GPU decente, este es.
26B MoE — El experto en eficiencia (15–18 GB de VRAM cuantizado)
El 26B contiene 26 mil millones de parámetros en total, pero aquí está el truco: solo 3,8 mil millones se activan por token. Un router aprendido selecciona 2 de 128 sub-redes de expertos para cada token, entregando calidad cercana al 31B con un costo de cómputo dramáticamente menor. Piénsalo como tener un edificio lleno de especialistas y solo llamar a los dos que necesitas para cada pregunta.
Soporta texto, imágenes y video (no solo audio como los modelos más pequeños), tiene una ventana de contexto de 256K y se ubica en el #6 entre modelos abiertos en Arena AI. El trade-off es la VRAM — necesitas 15–18 GB cuantizado, lo que significa una RTX 4090, una RTX 5060 Ti de 16GB, o una Mac con 32 GB+ de memoria unificada. Si tienes el hardware y quieres la mejor relación inteligencia-por-watt, este es tu modelo.
31B Dense — El gigante sin compromisos (16–20 GB de VRAM cuantizado)
Sin routing, sin mezcla de expertos, sin atajos. El 31B Dense activa todos sus 30,7 mil millones de parámetros en cada token. Es el techo de calidad de la familia Gemma 4 — ubicándose en el #3 entre todos los modelos abiertos en Arena AI y obteniendo 89,2 % en AIME 2026. Las mismas modalidades que el 26B (texto, imágenes, video), la misma ventana de contexto de 256K, pero con la máxima profundidad de razonamiento en cada respuesta.
El costo es cómputo. BF16 necesita ~71 GB de VRAM (territorio de GPUs empresariales). Pero cuantizado a INT4, cabe en 16–20 GB — manejable en una GPU de consumo de gama alta. Si tienes el hardware y la precisión importa más que la velocidad, este es el modelo abierto que más se acerca al rendimiento cloud de frontera.
¿Cuál deberías elegir?
Aquí va la guía rápida y honesta:
- Teléfono, sin conexión, tareas rápidas → E4B (o E2B para dispositivos muy limitados)
- Laptop, GPU de 8–12 GB → 12B Unified con QAT
- Laptop, 16 GB de memoria unificada, sin GPU → 12B Unified con QAT (más lento pero funciona)
- Estación de trabajo, RTX 4090 / Mac de 32 GB → 26B MoE (mejor calidad por watt)
- Servidor o estación de trabajo de gama alta → 31B Dense (calidad máxima)
Los cinco comparten la licencia Apache 2.0, soportan 140+ idiomas y funcionan con Ollama, llama.cpp, LM Studio, vLLM y el toolkit AI Edge de Google. La familia no se pone de acuerdo en la arquitectura — pero sí en la filosofía: IA seria que corre en tu hardware.
Puntos fuertes
- E2B — IA en un teléfono económico (1 GB de RAM): El miembro más pequeño de la familia cabe cuantizado en ~1 GB de RAM. Texto, imágenes y audio — todo en el dispositivo, todo sin conexión. Obtiene 37,5 % en AIME 2026, lo cual habría sido impresionante para un modelo de escritorio hace dos años. Usa Per-Layer Embeddings (PLE) para exprimir la máxima inteligencia de un mínimo de parámetros. Ideal para IoT, Raspberry Pi y dispositivos Android económicos.
- E4B — IA de smartphone insignia (4–6 GB de RAM): El punto dulce para móviles. Obtiene 42,5 % en AIME 2026 — más del doble que el modelo 27B de Gemma 3. Maneja texto, imágenes y audio de forma nativa. Ventana de contexto de 128K. Modo de razonamiento integrado para tareas complejas. Esto es un asistente de IA genuinamente capaz corriendo completamente en tu teléfono sin internet. Si tienes un smartphone insignia moderno, este es tu modelo.
- 12B Unified — el que cambió el juego para laptops (~7 GB de VRAM con QAT): La estrella de la familia. Arquitectura encoder-free — sin encoders separados de visión ni audio. Un solo transformer maneja texto, imágenes y audio de forma nativa. La variante QAT corre con ~6,7 GB de VRAM (Q4_0), cabe en una RTX 4070 de 12 GB o en una laptop con 16 GB de memoria unificada. La decodificación especulativa con MTP entrega 100–130+ tok/s. Obtiene 77,2 % en MMLU Pro, 77,5 % en AIME 2026, 72,0 % en LiveCodeBench. Se acerca al 26B MoE con la mitad de la memoria.
- 26B MoE — eficiencia para estaciones de trabajo (15–18 GB de VRAM cuantizado): 26 mil millones de parámetros en total, pero solo 3,8 mil millones se activan por token. Un router aprendido selecciona 2 de 128 expertos por capa, dándote calidad cercana al 31B con una fracción del cómputo. Soporta texto, imágenes y video. Contexto de 256K. Se ubica en el #6 entre modelos abiertos. Ideal para desarrolladores con una RTX 4090 o Mac con 32 GB que quieren la mejor relación calidad-velocidad.
- 31B Dense — el techo de calidad (16–20 GB de VRAM cuantizado): Cada uno de sus 30,7B parámetros se activa en cada token. Sin routing, sin atajos — máxima profundidad de razonamiento. Se ubica en el #3 entre modelos abiertos. 89,2 % en AIME 2026. Texto, imágenes, video. Contexto de 256K. Si tienes la VRAM (RTX 4090 o Mac de 64 GB), este es el modelo abierto que más se acerca a los modelos cloud de frontera.
-
AIME 2026 — 31B: 89,2 %, 12B: 77,5 %, E4B: 42,5 %, E2B: 37,5 % Matemáticas competitivas. Muestra la clara escalera de calidad a lo largo de la familia — desde el tamaño de teléfono hasta la clase de servidor. El 12B alcanza territorio matemático serio desde una laptop.
-
MMLU Pro — 12B: 77,2 % Razonamiento de conocimiento profesional. El 12B se acerca al 26B MoE (~97 % de su puntaje) usando menos de la mitad de la memoria. Inteligencia por parámetro excepcional.
-
LiveCodeBench v6 — 12B: 72,0 % Evaluación de programación en el mundo real. El 12B es un asistente de programación local legítimamente capaz — lo suficientemente fuerte para trabajo de desarrollo diario sin depender de la nube.
-
GPQA Diamond — 12B: 78,8 % Preguntas y respuestas de ciencia a nivel de posgrado. Puntajes que habrían sido nivel frontera hace un año, corriendo en hardware de consumo con cuantización QAT.
-
Arena AI — 31B: #3, 26B MoE: #6 (modelos abiertos) Comparación crowdsourced cara a cara. El 31B es top-tier entre modelos abiertos; el 26B MoE queda a 1–2 % con una fracción del cómputo.
-
Codeforces ELO — 12B: 1659 Programación competitiva. Lo suficientemente fuerte para resolver problemas algorítmicos no triviales de forma local. El 26B/31B obtienen puntajes aún más altos.
Limitaciones honestas
- Los modelos edge sacrifican profundidad por portabilidad: E2B y E4B no igualarán al 12B en razonamiento complejo, programación multi-paso o análisis profundo. Están optimizados para calidad-por-byte, no para calidad absoluta. Excelentes para tareas rápidas, no para investigación.
- El 12B necesita una GPU real (o una laptop potente): Incluso con QAT, necesitas ~7 GB de VRAM libre para inferencia. Eso significa una GPU dedicada (clase GTX 1080+) o una laptop con 16 GB+ de memoria unificada. Los gráficos integrados no darán velocidades usables.
- El 26B/31B necesitan hardware serio: Cuantizados, hablamos de 15–20 GB de VRAM. Sin cuantizar (BF16), el 31B necesita ~71 GB. Estos son modelos de estación de trabajo o laptop de gama alta, no para un setup económico.
- Sin video en edge ni en el 12B: La comprensión de video solo está disponible en el 26B y el 31B. Los modelos más pequeños manejan solo texto, imágenes y audio.
- Herramientas preferidas de Google: Mejor soportado a través de MediaPipe, LiteRT, Google AI Edge SDK y AI Studio. Ollama, llama.cpp y LM Studio funcionan bien, pero espera alguna aspereza ocasional en comparación con la ruta optimizada de Google.
- No está diseñado para sesiones maratónicas: A diferencia de los modelos cloud de frontera que ejecutan sprints de programación autónomos de varios días, Gemma 4 está construido para inferencia single-turn y multi-turn — no para maratones agénticas sostenidas.
El Veredicto: Gemma 4 es la familia de modelos abiertos más práctica lanzada este año — no porque algún modelo individual sea el mejor en todo, sino porque hay un Gemma para cada situación. ¿Construyendo un asistente de teléfono sin conexión? E4B. ¿Necesitas un compañero de programación privado en tu laptop con una GPU de 12 GB? El 12B Unified con QAT. ¿Corriendo una estación de trabajo con una RTX 4090 y quieres máxima calidad por watt? El 26B MoE. ¿Necesitas razonamiento abierto absoluto de clase frontera? El 31B Dense. Las arquitecturas son diferentes (PLE, encoder-free, MoE, denso), los requisitos de hardware son diferentes (1 GB a 71 GB), pero comparten la misma licencia (Apache 2.0), el mismo soporte multilingüe (140+) y la misma filosofía: IA seria que corre en tu hardware, no en la nube de alguien más.