Estou muito confiante de que acumulamos o maior conjunto de avaliações baseadas em tarefas IRL para agentes de codificação como códice, código claude, cursor, amp, devin, etc. nas últimas semanas com @askModuAI Precisa descobrir uma maneira de fazer benchmarking acessível ao público
407