Ich bin mir sehr sicher, dass wir in den letzten Wochen mit @askModuAI den größten Satz an IRL-aufgabenbasierten Bewertungen für Codierungsagenten wie Codex, Claude Code, Cursor, Amp, Devin usw. angesammelt haben. Wir müssen einen Weg finden, um öffentlich zugängliche Benchmarks zu erstellen.
431