Ik ben er zeer van overtuigd dat we de grootste set van IRL taakgebaseerde evaluaties voor coderingsagenten zoals codex, claude code, cursor, amp, devin, enz. hebben verzameld in de afgelopen weken met @askModuAI. We moeten een manier vinden om publiek toegankelijke benchmarks op te stellen.
410