Theo quan điểm của tôi, SWE-bench và T-bench là một trong số ít các tiêu chuẩn có tín hiệu tốt về mức độ tiến bộ mà chúng ta đạt được với các mô hình. Mô hình này hoạt động tốt như Qwen3 Coder và chỉ kém 10% so với GPT-5, trong khi cũng là một LLM đa năng chứ không chỉ chuyên về mã.
Z.ai
Z.ai11:43 11 thg 8
Giới thiệu báo cáo kỹ thuật GLM-4.5!👇 Công trình này chứng minh cách chúng tôi phát triển các mô hình xuất sắc trong việc suy luận, lập trình và thực hiện các nhiệm vụ tự động thông qua một phương pháp đào tạo đa giai đoạn độc đáo. Các đổi mới chính bao gồm việc lặp lại mô hình chuyên gia với tự chưng để thống nhất khả năng, chế độ suy luận lai cho việc giải quyết vấn đề linh hoạt, và chương trình học tăng cường dựa trên độ khó.
28,62K