Apakah ada taman bermain atau yang setara untuk melihat penggunaan alat / kinerja agen dari model yang berbeda? Saya pada dasarnya ingin memberinya 5 alat dan prompt saya yang biasa Dan taman bermain menghasilkan ~5-10 kasus dan menjalankan semua model yang dipilih Dan kemudian saya mengamati+mengubah model, prompt
4,58K