Esiste un'area di prova o equivalente per vedere l'uso degli strumenti / le prestazioni agentiche di diversi modelli? Voglio sostanzialmente fornire 5 strumenti e il mio solito prompt E l'area di prova genera ~5-10 casi e esegue tutti i modelli selezionati E poi osservo+cambio modello, prompt
4,59K