I takt med att evals för modeller blir mättade kommer "evals" för agenter att bli nästa gräns för vad som är viktigt Kommer att vara svårare att skaffa också eftersom det är så specifikt/uppgiftsbaserat Är Devin bättre än Amp på refaktorisering? Är Codex bättre än Claude Code för felsökning?
281