Existe algum playground ou equivalente para ver o uso de ferramentas / desempenho agente de diferentes modelos? Quero essencialmente dar-lhe 5 ferramentas e o meu prompt habitual E o playground gera ~5-10 casos e executa todos os modelos selecionados E depois eu observo+mudo o modelo, o prompt
4,59K