GLM-5.2

Zhipu AI · Lanzado 13 de junio de 2026

9.4 /10 Puntuación general

Lo que realmente es

Hay un número fácil de desestimar hasta que ves de dónde viene: 1360. Es el Elo de GLM-5.2 en Design Arena — no un benchmark auto-reportado, sino una tabla independiente donde usuarios reales votan en tareas reales de coding. Es el puesto #1.

Y luego está 87. La puntuación de GLM-5.2 en el benchmark de AkitaOnRails — un salto de +41 puntos desde GLM-5.1. De Tier C a Tier A. La mayor mejora intra-familia jamás registrada.

Lanzado el 13 de junio de 2026, GLM-5.2 es un modelo MoE de 744 mil millones de parámetros. SWE-bench Pro 62,1% supera a GPT-5.5 (58,6%). Terminal-Bench 82,7 en Claude Code supera a Opus 4.8 (78,9). FrontierSWE 74,4% — 1% detrás de Opus 4.8. La licencia MIT es el multiplicador de fuerza.

Puntos fuertes

Design Arena #1 — Elo 1360: Primer modelo de pesos abiertos en liderar las categorías de coding de Design Arena. Validación independiente de la comunidad.
AkitaOnRails 87/100 — Tier A: Mejora más dramática en la historia del benchmark. De 46/100 (Tier C) a 87/100 (Tier A) — +41 puntos.
SWE-bench Pro 62,1%: Supera a GPT-5.5 (58,6%) y todos los modelos abiertos. Subsets Verified muestran ~78%+.
Terminal-Bench 82,7 (Claude Code): Supera a Opus 4.8 (78,9) en el mismo harness. Salto masivo de +17,5 puntos desde GLM-5.1.
FrontierSWE 74,4%: Solo 1% detrás de Opus 4.8. Licencia MIT y contexto 1M.

Resumen de Benchmarks

Design Arena — #1 (Elo 1360) Primer modelo abierto en liderar. Validación independiente de la comunidad. Superó a Claude Fable 5.
SWE-bench Pro — 62,1% Supera GPT-5.5 (58,6%) y todos los modelos abiertos. Solo Opus 4.8 (69,2%) más alto.
Terminal-Bench 2.1 — 81,0 / 82,7 81,0 en Terminus-2. 82,7 en Claude Code (supera Opus 4.8 78,9). +17,5 puntos desde GLM-5.1.
AkitaOnRails — 87/100 Tier A Eval práctico de coding multi-turno. +41 puntos desde GLM-5.1 — mayor salto intra-familia jamás.

Limitaciones honestas

Brecha en benchmarks de profundidad: Opus 4.8 lidera en SWE-bench Pro (69,2 vs 62,1), NL2Repo (69,7 vs 48,9), SWE-Marathon (26,0 vs 13,0).
Arquitectura pesada: 744B parámetros. Configuraciones multi-cientos-GB necesarias.
No domina chat general: lmarena Code Arena 7º-10º. Fuerte en coding, no en general.
Sin visión nativa: Solo texto/código.

El Veredicto: Algo cambió. Cuando un modelo de pesos abiertos toma el #1 en Design Arena, salta 41 puntos en un benchmark independiente práctico, y queda a porcentajes de un solo dígito del mejor modelo cerrado en FrontierSWE — eso no es progreso incremental. GLM-5.2 es el modelo de coding abierto más fuerte jamás lanzado.