GLM-5.2
Zhipu AI · Lanzado 13 de junio de 2026
Lo que realmente es
Hay un número fácil de desestimar hasta que ves de dónde viene: 1360. Es el Elo de GLM-5.2 en Design Arena — no un benchmark auto-reportado, sino una tabla independiente donde usuarios reales votan en tareas reales de coding. Es el puesto #1.
Y luego está 87. La puntuación de GLM-5.2 en el benchmark de AkitaOnRails — un salto de +41 puntos desde GLM-5.1. De Tier C a Tier A. La mayor mejora intra-familia jamás registrada.
Lanzado el 13 de junio de 2026, GLM-5.2 es un modelo MoE de 744 mil millones de parámetros. SWE-bench Pro 62,1% supera a GPT-5.5 (58,6%). Terminal-Bench 82,7 en Claude Code supera a Opus 4.8 (78,9). FrontierSWE 74,4% — 1% detrás de Opus 4.8. La licencia MIT es el multiplicador de fuerza.
Puntos fuertes
- Design Arena #1 — Elo 1360: Primer modelo de pesos abiertos en liderar las categorías de coding de Design Arena. Validación independiente de la comunidad.
- AkitaOnRails 87/100 — Tier A: Mejora más dramática en la historia del benchmark. De 46/100 (Tier C) a 87/100 (Tier A) — +41 puntos.
- SWE-bench Pro 62,1%: Supera a GPT-5.5 (58,6%) y todos los modelos abiertos. Subsets Verified muestran ~78%+.
- Terminal-Bench 82,7 (Claude Code): Supera a Opus 4.8 (78,9) en el mismo harness. Salto masivo de +17,5 puntos desde GLM-5.1.
- FrontierSWE 74,4%: Solo 1% detrás de Opus 4.8. Licencia MIT y contexto 1M.
-
Design Arena — #1 (Elo 1360) Primer modelo abierto en liderar. Validación independiente de la comunidad. Superó a Claude Fable 5.
-
SWE-bench Pro — 62,1% Supera GPT-5.5 (58,6%) y todos los modelos abiertos. Solo Opus 4.8 (69,2%) más alto.
-
Terminal-Bench 2.1 — 81,0 / 82,7 81,0 en Terminus-2. 82,7 en Claude Code (supera Opus 4.8 78,9). +17,5 puntos desde GLM-5.1.
-
AkitaOnRails — 87/100 Tier A Eval práctico de coding multi-turno. +41 puntos desde GLM-5.1 — mayor salto intra-familia jamás.
Limitaciones honestas
- Brecha en benchmarks de profundidad: Opus 4.8 lidera en SWE-bench Pro (69,2 vs 62,1), NL2Repo (69,7 vs 48,9), SWE-Marathon (26,0 vs 13,0).
- Arquitectura pesada: 744B parámetros. Configuraciones multi-cientos-GB necesarias.
- No domina chat general: lmarena Code Arena 7º-10º. Fuerte en coding, no en general.
- Sin visión nativa: Solo texto/código.
El Veredicto: Algo cambió. Cuando un modelo de pesos abiertos toma el #1 en Design Arena, salta 41 puntos en un benchmark independiente práctico, y queda a porcentajes de un solo dígito del mejor modelo cerrado en FrontierSWE — eso no es progreso incremental. GLM-5.2 es el modelo de coding abierto más fuerte jamás lanzado.