Pe măsură ce evaluările pentru modele devin saturate, "evaluările" pentru agenți vor deveni următoarea frontieră a ceea ce contează Va fi și mai greu de procurat, deoarece este atât de specific/bazat pe sarcini Este Devin mai bun decât Amp la refactorizare? Este Codex mai bun decât Claude Code pentru depanare?
313