În opinia mea, SWE-bench și T-bench sunt puținele repere care au un semnal bun în ceea ce privește cât de mult progres facem cu modelele. Acest model funcționează la fel de bine ca Qwen3 Coder și este cu doar 10% mai rău decât GPT-5, fiind în același timp un LLM de uz general, mai degrabă decât specializat în cod.
Z.ai
Z.ai11 aug., 11:43
Presenting the GLM-4.5 technical report!👇 This work demonstrates how we developed models that excel at reasoning, coding, and agentic tasks through a unique, multi-stage training paradigm. Key innovations include expert model iteration with self-distillation to unify capabilities, a hybrid reasoning mode for dynamic problem-solving, and a difficulty-based reinforcement learning curriculum.
28,62K