¿Hay algún espacio de pruebas o equivalente para ver el uso de herramientas / el rendimiento agente de diferentes modelos? Esencialmente quiero darle 5 herramientas y mi aviso habitual. Y el espacio de pruebas genera ~5-10 casos y ejecuta todos los modelos seleccionados. Y luego observo y cambio el modelo, el aviso.
4,63K