Local / Private AI — Your Brain, Your Machine, Your Rules

Here's a radical idea: what if you could run a genuinely smart AI on tu propio hardware, and nothing you told it would ever leave your machine? No cloud servers. No data collection. No subscription fees. Just you, your laptop, and an intelligence that respects your privacy by design. Welcome to the open-weight revolution.

Filtro Todos Ecosistema Diario Generación de Imágenes Programación Creadores de Apps Investigación Arquitectos Digitales Mentores Académicos Video Música y Voz IA Local / Privada Generación Local de Imágenes Generación Local de Vídeo Agentes IA

GLM-5.2

IA Local / Privada Zhipu AI · Lanzado 13 de junio de 2026
#1
9.0/10

El modelo de pesos abiertos que reescribe las reglas del AI local. Design Arena #1, SWE-bench Pro 62,1%, Terminal-Bench 82,7, AkitaOnRails 87/100 — todo bajo licencia MIT para descargar y ejecutar en su propio hardware. Contexto de 1M tokens y el primer modelo abierto que compite genuinamente con líderes cerrados.

Modelo abierto más fuerte para coding y trabajo agéntico — Design Arena #1 (Elo 1360), AkitaOnRails 87/100 Tier A, SWE-bench Pro 62,1% SOTA, FrontierSWE 74,4%. MIT sin restricciones. Más compacto que DeepSeek V4 (1,6T) con benchmarks verificados más fuertes. Cabe en Macs de 256GB con cuantización.

744B MoE requiere 256GB+ o clusters multi-GPU. Sin visión nativa. Más lento que modelos compactos. Ecosistema occidental madurando.


Open Weights MIT 1M Context MoE Coding Agentic Design Arena #1

Qwen3.6 — 27B

IA Local / Privada Alibaba (Qwen Team) · Lanzado April 22, 2026
#2
8.3/10

El último modelo denso de 27B de Alibaba supera a su propio buque insignia de 397B en cada benchmark de coding agéntico mientras corre en una sola GPU de consumidor. SWE-bench Verified 77,2, Terminal-Bench 2.0 59,3, visión y vídeo nativos, Apache 2.0. El punto de inflexión de la inferencia local.

Supera a Qwen3.5-397B-A17B (un modelo MoE de 397B) en SWE-bench Verified (77,2), SWE-bench Pro (53,5), Terminal-Bench 2.0 (59,3) y SkillsBench Avg5 (48,2). GPQA Diamond 87,8. Multimodal nativo con preservación del pensamiento. r/LocalLLaMA lo llama "el lanzamiento más grande del año."

Perfil de VRAM similar al predecesor (~17–20 GB en 4 bits); muy reciente así que las opciones cuantizadas aún están desplegándose; el modo de pensamiento puede ser extenso en tareas simples (desactivable).


Multimodal Open Weight Apache 2.0 Agentic Coding Vision + Video Free Offline

Gemma 4

IA Local / Privada Google DeepMind · Lanzado 2 de abril de 2026 (12B Unified: 3 de junio de 2026)
#3
8.1/10

No es un modelo — son cinco. Gemma 4 de Google DeepMind es una familia que abarca todo, desde una astilla de 2 mil millones de parámetros que corre en tu teléfono hasta una bestia de 31 mil millones para servidores. Cada miembro tiene una arquitectura diferente, fortalezas diferentes y requisitos de hardware diferentes. El E2B cabe en 1 GB de RAM. El 12B Unified corre una IA multimodal completa en la GPU de una laptop. El 26B MoE activa solo 3,8B parámetros por token. Todos Apache 2.0, todos con pesos abiertos. Esta guía recorre cada uno para que sepas exactamente cuál Gemma se ajusta a tu hardware y tu flujo de trabajo.

Cinco modelos cubriendo teléfono → laptop → servidor. 12B Unified: multimodal encoder-free, ~7 GB de VRAM con QAT, 100+ tok/s en GPUs de consumo. E2B corre en 1 GB de RAM en teléfonos. E4B obtiene 42,5 % en AIME 2026 en un smartphone. 26B MoE ofrece ~97 % de la calidad del 31B con una fracción del cómputo. 31B se ubica en el top 3 entre modelos abiertos. Todos Apache 2.0. Todos soportan 140+ idiomas.

Cinco modelos significa cinco conjuntos de trade-offs. Los modelos edge sacrifican profundidad de razonamiento. El 12B necesita una GPU decente. El 26B/31B necesitan VRAM seria. Ningún modelo hace todo — eliges el que se ajusta a tu hardware. Las herramientas de Google ofrecen la experiencia más fluida.


Multimodal Open Weight Apache 2.0 On-Device QAT Free

Preguntas frecuentes

La IA local ofrece privacidad completa (los datos nunca salen de tu máquina), funciona sin conexión, no tiene costos de suscripción recurrentes y evita las limitaciones de velocidad de las API en la nube.

Necesitas una GPU decente con suficiente VRAM (al menos 8GB-12GB para modelos pequeños como Llama 4 8B o Gemma 4, y 16GB-24GB+ para grandes como Qwen 3.6 27B o Gemma 4 31B) o una Mac Apple Silicon con memoria unificada (16GB-48GB+). Ejecutarlo solo con CPU es muy lento.

El código abierto real incluye el código y los datos de entrenamiento. Los modelos de pesos abiertos (como DeepSeek o Llama) te dan los pesos preentrenados para usarlos en local, pero los datos de entrenamiento exactos son confidenciales.

La forma más fácil es usar aplicaciones gratuitas para el usuario como Ollama, LM Studio o AnythingLLM. Gestionan la configuración compleja del backend para que puedas descargar y chatear con modelos con un solo clic.