W miarę jak oceny modeli stają się nasycone, "oceny" dla agentów staną się nową granicą tego, co ma znaczenie. Będzie to również trudniejsze do zdobycia, ponieważ jest to tak specyficzne/oparte na zadaniach. Czy Devin jest lepszy od Amp w refaktoryzacji? Czy Codex jest lepszy od Claude Code w debugowaniu?
309