Y a-t-il un terrain de jeu ou un équivalent pour voir l'utilisation des outils / la performance agentique de différents modèles ? Je veux essentiellement lui donner 5 outils et mon prompt habituel Et le terrain de jeu génère ~5-10 cas et exécute tous les modèles sélectionnés Et ensuite j'observe + change le modèle, le prompt.
4,59K