Jestem bardzo pewny, że w ciągu ostatnich kilku tygodni z @askModuAI zgromadziliśmy największy zbiór ocen opartych na zadaniach IRL dla agentów kodujących, takich jak codex, claude code, cursor, amp, devin itd. Musimy znaleźć sposób na benchmarking publicznie dostępnych.
406