我非常有信心,在过去几周里,我们与 @askModuAI 一起积累了针对编码代理(如 codex、claude code、cursor、amp、devin 等)的最大一组基于现实任务的评估。 需要找出一种方法来进行公开可访问的基准测试。
324