Je suis très confiant que nous avons accumulé le plus grand ensemble d'évaluations basées sur des tâches IRL pour des agents de codage comme Codex, Claude Code, Cursor, Amp, Devin, etc. au cours des dernières semaines avec @askModuAI Il faut trouver un moyen de faire des benchmarks accessibles au public.
437