من وجهة نظري ، SWE-bench و T-bench هما المعياران القلائل اللذان لديهما إشارة جيدة من حيث مقدار التقدم الذي نحرزه مع النماذج. يعمل هذا النموذج مثل Qwen3 Coder وهو أسوأ بنسبة 10٪ فقط من GPT-5 ، بينما يكون أيضا LLM للأغراض العامة وليس متخصصا في الكود.
Z.ai
Z.ai‏11 أغسطس، 11:43
Presenting the GLM-4.5 technical report!👇 This work demonstrates how we developed models that excel at reasoning, coding, and agentic tasks through a unique, multi-stage training paradigm. Key innovations include expert model iteration with self-distillation to unify capabilities, a hybrid reasoning mode for dynamic problem-solving, and a difficulty-based reinforcement learning curriculum.
‏‎28.62‏K