En mi opinión, SWE-bench y T-bench son los pocos puntos de referencia que tienen una buena señal en términos de cuánto progreso hacemos con los modelos. Este modelo funciona tan bien como Qwen3 Coder y es solo un 10% peor que GPT-5, además de ser un LLM de propósito general en lugar de un código especializado.
Z.ai
Z.ai11 ago, 11:43
Presenting the GLM-4.5 technical report!👇 This work demonstrates how we developed models that excel at reasoning, coding, and agentic tasks through a unique, multi-stage training paradigm. Key innovations include expert model iteration with self-distillation to unify capabilities, a hybrid reasoning mode for dynamic problem-solving, and a difficulty-based reinforcement learning curriculum.
28.61K