Estou muito confiante de que acumulamos o maior conjunto de avaliações baseadas em tarefas do mundo real para agentes de codificação como codex, claude code, cursor, amp, devin, etc. nas últimas semanas com @askModuAI Precisamos descobrir uma maneira de fazer benchmarking acessível publicamente.
398