さまざまなモデルのツールの使用/エージェントのパフォーマンスを確認するための遊び場または同等のものはありますか? 基本的に5つのツールといつものプロンプトを与えたい また、プレイグラウンドは ~5 から 10 個のケースを生成し、選択したすべてのモデルを実行します そして、私は観察+モデルを変更し、プロンプトします
4.58K