Sono molto sicuro che abbiamo accumulato il più grande insieme di valutazioni basate su compiti nel mondo reale per agenti di codifica come codex, claude code, cursor, amp, devin, ecc. nelle ultime settimane con @askModuAI Devo trovare un modo per effettuare benchmark pubblicamente accessibili.
355