Estoy muy seguro de que hemos acumulado el mayor conjunto de evaluaciones basadas en tareas IRL para agentes de codificación como codex, código claude, cursor, amp, devin, etc. durante las últimas semanas con @askModuAI Necesidad de encontrar una manera de hacer una evaluación comparativa de acceso público
386