Jag är väldigt säker på att vi har samlat på oss den största uppsättningen av IRL-uppgiftsbaserade evals för kodningsagenter som codex, claude code, cursor, amp, devin, etc. under de senaste veckorna med @askModuAI Behov av att hitta ett sätt att benchmarking offentligt tillgänglig
414