2025 adalah tahun agen, & kemampuan utama agen adalah alat panggilan. Saat menggunakan Claude Code, saya dapat memberi tahu AI untuk menyaring buletin, menemukan semua tautan ke startup, memverifikasi keberadaannya di CRM kami, dengan satu perintah. Ini mungkin melibatkan dua atau tiga alat berbeda yang dipanggil. Tapi inilah masalahnya: menggunakan model fondasi besar untuk ini mahal, seringkali tarif terbatas, & terlalu kuat untuk tugas seleksi. Apa cara terbaik untuk membangun sistem agen dengan panggilan alat? Jawabannya terletak pada model aksi kecil. NVIDIA merilis makalah yang menarik yang berpendapat bahwa "Model bahasa kecil (SLM) cukup kuat, secara inheren lebih cocok, dan tentu saja lebih ekonomis untuk banyak pemanggilan dalam sistem agen." Saya telah menguji model lokal yang berbeda untuk memvalidasi latihan pengurangan biaya. Saya mulai dengan model parameter Qwen3:30b, yang berfungsi tetapi bisa sangat lambat karena ini adalah model yang sangat besar, meskipun hanya 3 miliar dari 30 miliar parameter tersebut yang aktif pada satu waktu. Makalah NVIDIA merekomendasikan model Salesforce xLAM – arsitektur berbeda yang disebut model aksi besar yang dirancang khusus untuk pemilihan alat. Jadi, saya menjalankan pengujian saya sendiri, setiap model memanggil alat untuk mencantumkan tugas Asana saya. Hasilnya sangat mengejutkan: xLAM menyelesaikan tugas dalam 2,61 detik dengan keberhasilan 100%, sementara Qwen membutuhkan 9,82 detik dengan keberhasilan 92% – hampir empat kali lebih lama. Eksperimen ini menunjukkan perolehan kecepatan, tetapi ada trade-off: berapa banyak kecerdasan yang harus hidup dalam model versus dalam alat itu sendiri. Ini terbatas Dengan model yang lebih besar seperti Qwen, alat bisa lebih sederhana karena model memiliki toleransi kesalahan yang lebih baik & dapat bekerja di sekitar antarmuka yang dirancang dengan buruk. Model ini mengkompensasi keterbatasan alat melalui penalaran brute-force. Dengan model yang lebih kecil, model memiliki kapasitas yang lebih kecil untuk pulih dari kesalahan, sehingga alat harus lebih kuat & logika pemilihan lebih tepat. Ini mungkin tampak seperti batasan, tetapi sebenarnya ini adalah fitur. Kendala ini menghilangkan tingkat kesalahan peracikan alat berantai LLM. Ketika model besar melakukan panggilan alat berurutan, kesalahan terakumulasi secara eksponensial. Model aksi kecil memaksa desain sistem yang lebih baik, menjaga yang terbaik dari LLM dan menggabungkannya dengan model khusus. Arsitektur ini lebih efisien, lebih cepat, dan lebih dapat diprediksi.
5,13K