Saya sangat yakin bahwa kami telah mengumpulkan serangkaian eval berbasis tugas IRL terbesar untuk agen pengkodean seperti codex, claude code, cursor, amp, devin, dll. selama beberapa minggu terakhir dengan @askModuAI Perlu mencari cara untuk membandingkan yang dapat diakses publik
354