Tôi rất tự tin rằng chúng tôi đã tích lũy được bộ đánh giá dựa trên nhiệm vụ IRL lớn nhất cho các tác nhân lập trình như codex, claude code, cursor, amp, devin, v.v. trong vài tuần qua với @askModuAI Cần tìm ra cách để đánh giá công khai.
395