Estoy muy seguro de que hemos acumulado el conjunto más grande de evaluaciones basadas en tareas del mundo real para agentes de codificación como codex, claude code, cursor, amp, devin, etc. en las últimas semanas con @askModuAI Necesitamos encontrar una manera de establecer un punto de referencia accesible públicamente.
399