Gibt es einen Spielplatz oder ein Äquivalent, um die Nutzung von Tools / die agentische Leistung verschiedener Modelle zu sehen? Ich möchte im Wesentlichen 5 Tools und meinen üblichen Prompt geben. Und der Spielplatz generiert ~5-10 Fälle und führt alle ausgewählten Modelle aus. Und dann beobachte ich + ändere Modell, Prompt.
4,59K