Naarmate evaluaties voor modellen verzadigd raken, zullen "evaluaties" voor agenten de volgende grens worden van wat belangrijk is. Het zal ook moeilijker zijn om te verkrijgen, aangezien het zo specifiek/op taak gebaseerd is. Is Devin beter dan Amp in refactoring? Is Codex beter dan Claude Code voor debugging?
312