À mesure que les évaluations des modèles deviennent saturées, les "évaluations" des agents deviendront la prochaine frontière de ce qui compte. Il sera également plus difficile de les obtenir car c'est très spécifique/basé sur des tâches. Devin est-il meilleur qu'Amp pour le refactoring ? Codex est-il meilleur que Claude Code pour le débogage ?
307