AI 代理在長期任務上已經變得足夠出色,這是 AI 在工作中影響的轉折點。 METR、GDPval 和現在的 Anthropic 對此達成共識。如果你有一個工具能夠在 65% 的時間內節省 8 小時,那麼這將改變工作,即使考慮到潛在的錯誤率。
從:
105