Khi các đánh giá cho các mô hình trở nên bão hòa, "đánh giá" cho các tác nhân sẽ trở thành biên giới tiếp theo của những gì quan trọng. Sẽ khó khăn hơn để thu thập vì nó rất cụ thể/có tính chất nhiệm vụ. Devin có tốt hơn Amp trong việc tái cấu trúc không? Codex có tốt hơn Claude Code trong việc gỡ lỗi không?
323