Mielestäni SWE-penkki ja T-penkki ovat niitä harvoja vertailukohtia, joilla on hyvä signaali siitä, kuinka paljon edistymme mallien kanssa. Tämä malli toimii yhtä hyvin kuin Qwen3 Coder ja on vain 10 % huonompi kuin GPT-5, mutta se on myös yleiskäyttöinen LLM koodiin erikoistuneen sijaan.
Z.ai
Z.ai11.8. klo 11.43
GLM-4.5 teknisen raportin esittelyssä! 👇 Tämä työ osoittaa, kuinka kehitimme malleja, jotka ovat erinomaisia päättelyssä, koodauksessa ja agenttitehtävissä ainutlaatuisen, monivaiheisen koulutusparadigman avulla. Keskeisiä innovaatioita ovat asiantuntijamallien iteraatio itsetislauksella kykyjen yhdistämiseksi, hybridipäättelytila dynaamiseen ongelmanratkaisuun ja vaikeuspohjainen vahvistusoppimisen opetussuunnitelma.
28,61K