我非常有信心,在過去幾週裡,我們與 @askModuAI 一起積累了針對編碼代理(如 codex、claude code、cursor、amp、devin 等)的最大一組基於現實任務的評估。 需要找出一種方法來進行公開可訪問的基準測試。
358