Na minha opinião, o SWE-bench e o T-bench são os poucos benchmarks que têm um bom sinal em termos de quanto progresso fazemos com os modelos. Este modelo tem um desempenho tão bom quanto o Qwen3 Coder e é apenas 10% pior que o GPT-5, sendo também um LLM de propósito geral em vez de especializado em código.
Z.ai
Z.ai11/08, 11:43
Apresentando o relatório técnico GLM-4.5!👇 Este trabalho demonstra como desenvolvemos modelos que se destacam em raciocínio, codificação e tarefas agentivas através de um paradigma de treinamento único e em múltiplas etapas. As principais inovações incluem iteração de modelos especialistas com auto-destilação para unificar capacidades, um modo de raciocínio híbrido para resolução dinâmica de problemas e um currículo de aprendizado por reforço baseado em dificuldade.
28,62K