Da die Bewertungen für Modelle gesättigt sind, werden die "Bewertungen" für Agenten die nächste Grenze dessen sein, was wichtig ist. Es wird auch schwieriger sein, sie zu beschaffen, da sie so spezifisch/aufgabenbasiert sind. Ist Devin besser als Amp beim Refactoring? Ist Codex besser als Claude Code beim Debuggen?
303