Existe algum playground ou equivalente para ver o uso da ferramenta / desempenho agencial de diferentes modelos? Eu quero essencialmente dar a ele 5 ferramentas e meu prompt usual E o playground gera ~ 5-10 casos e executa todos os modelos selecionados E então eu observo + mudar de modelo, prompt
4,59K