Di era prapelatihan, yang penting adalah teks internet. Anda terutama menginginkan koleksi dokumen internet yang besar, beragam, dan berkualitas tinggi untuk dipelajari. Di era penyempurnaan yang diawasi, itu adalah percakapan. Pekerja kontrak dipekerjakan untuk membuat jawaban atas pertanyaan, sedikit seperti yang Anda lihat di Stack Overflow / Quora, atau lain-lain, tetapi diarahkan untuk kasus penggunaan LLM. Tak satu pun dari dua hal di atas akan hilang (imo), tetapi di era pembelajaran penguatan ini, sekarang menjadi lingkungan. Tidak seperti di atas, mereka memberi LLM kesempatan untuk benar-benar berinteraksi - mengambil tindakan, melihat hasil, dll. Ini berarti Anda dapat berharap untuk melakukan jauh lebih baik daripada tiruan ahli statistik. Dan mereka dapat digunakan baik untuk pelatihan dan evaluasi model. Tetapi seperti sebelumnya, masalah inti sekarang adalah membutuhkan serangkaian lingkungan yang besar, beragam, dan berkualitas tinggi, sebagai latihan bagi LLM untuk berlatih. Dalam beberapa hal, saya teringat pada proyek pertama OpenAI (gym), yang merupakan kerangka kerja yang berharap untuk membangun koleksi besar lingkungan dalam skema yang sama, tetapi ini jauh sebelum LLM. Jadi lingkungannya adalah tugas kontrol akademik sederhana saat itu, seperti tiang gerobak, ATARI, dll. Hub lingkungan @PrimeIntellect (dan repositori 'verifier' di GitHub) membangun versi modern yang secara khusus menargetkan LLM, dan ini adalah upaya/ide yang hebat. Saya mengajukan agar seseorang membangun sesuatu seperti itu awal tahun ini: Lingkungan memiliki properti bahwa setelah kerangka kerja diadakan, pada prinsipnya komunitas / industri dapat menyejajarkan di banyak domain yang berbeda, yang menarik. Pemikiran akhir - secara pribadi dan jangka panjang, saya optimis pada lingkungan dan interaksi agen tetapi saya bearish pada pembelajaran penguatan secara khusus. Saya pikir fungsi penghargaan itu super sus, dan saya pikir manusia tidak menggunakan RL untuk belajar (mungkin mereka melakukannya untuk beberapa tugas motorik dll, tetapi bukan tugas pemecahan masalah intelektual). Manusia menggunakan paradigma pembelajaran yang berbeda yang secara signifikan lebih kuat dan efisien sampel dan yang belum ditemukan dan diskalakan dengan benar, meskipun ada sketsa dan ide awal (sebagai salah satu contoh, gagasan "pembelajaran cepat sistem", memindahkan pembaruan ke token/konteks bukan bobot dan secara opsional menyuling ke bobot sebagai proses terpisah seperti tidur).
Prime Intellect
Prime Intellect17 jam lalu
Memperkenalkan Hub Lingkungan Lingkungan RL adalah hambatan utama untuk gelombang kemajuan AI berikutnya, tetapi laboratorium besar menguncinya Kami membangun platform komunitas untuk crowdsourcing lingkungan terbuka, sehingga siapa pun dapat berkontribusi pada AGI sumber terbuka
427,07K