Naar mijn mening zijn SWE-bench en T-bench de weinige benchmarks die een goed signaal geven over hoeveel vooruitgang we boeken met modellen. Dit model presteert even goed als Qwen3 Coder en is slechts 10% slechter dan GPT-5, terwijl het ook een algemeen LLM is in plaats van code-gespecialiseerd.
Z.ai
Z.ai11 aug, 11:43
De GLM-4.5 technische rapport presenteren!👇 Dit werk toont aan hoe we modellen hebben ontwikkeld die uitblinken in redeneren, coderen en agenttaken door middel van een unieke, multi-fase trainingsparadigma. Belangrijke innovaties zijn onder andere expert modeliteratie met zelfdistillatie om capaciteiten te verenigen, een hybride redeneermodus voor dynamisch probleemoplossend vermogen, en een moeilijkheidsgebaseerd curriculum voor versterkend leren.
28,62K