Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect memposting ulang
.@willccbb (Pemimpin Penelitian, Prime Intellect) tentang cara kerja lingkungan RL:
"Lingkungan pada dasarnya adalah eval. Anda memiliki tugas input, harness, dan pada akhirnya menilai bagaimana kinerja model atau agen Anda. Itulah pengaturan yang kami gunakan untuk pelatihan eval dan RL."
Dia menambahkan bahwa masa depan bukan hanya tentang "mendapatkan 100.000 GPU dalam satu cluster raksasa."
8,78K
Prime Intellect memposting ulang
Di era prapelatihan, yang penting adalah teks internet. Anda terutama menginginkan koleksi dokumen internet yang besar, beragam, dan berkualitas tinggi untuk dipelajari.
Di era penyempurnaan yang diawasi, itu adalah percakapan. Pekerja kontrak dipekerjakan untuk membuat jawaban atas pertanyaan, sedikit seperti yang Anda lihat di Stack Overflow / Quora, atau lain-lain, tetapi diarahkan untuk kasus penggunaan LLM.
Tak satu pun dari dua hal di atas akan hilang (imo), tetapi di era pembelajaran penguatan ini, sekarang menjadi lingkungan. Tidak seperti di atas, mereka memberi LLM kesempatan untuk benar-benar berinteraksi - mengambil tindakan, melihat hasil, dll. Ini berarti Anda dapat berharap untuk melakukan jauh lebih baik daripada tiruan ahli statistik. Dan mereka dapat digunakan baik untuk pelatihan dan evaluasi model. Tetapi seperti sebelumnya, masalah inti sekarang adalah membutuhkan serangkaian lingkungan yang besar, beragam, dan berkualitas tinggi, sebagai latihan bagi LLM untuk berlatih.
Dalam beberapa hal, saya teringat pada proyek pertama OpenAI (gym), yang merupakan kerangka kerja yang berharap untuk membangun koleksi besar lingkungan dalam skema yang sama, tetapi ini jauh sebelum LLM. Jadi lingkungannya adalah tugas kontrol akademik sederhana saat itu, seperti tiang gerobak, ATARI, dll. Hub lingkungan @PrimeIntellect (dan repositori 'verifier' di GitHub) membangun versi modern yang secara khusus menargetkan LLM, dan ini adalah upaya/ide yang hebat. Saya mengajukan agar seseorang membangun sesuatu seperti itu awal tahun ini:
Lingkungan memiliki properti bahwa setelah kerangka kerja diadakan, pada prinsipnya komunitas / industri dapat menyejajarkan di banyak domain yang berbeda, yang menarik.
Pemikiran akhir - secara pribadi dan jangka panjang, saya optimis pada lingkungan dan interaksi agen tetapi saya bearish pada pembelajaran penguatan secara khusus. Saya pikir fungsi penghargaan itu super sus, dan saya pikir manusia tidak menggunakan RL untuk belajar (mungkin mereka melakukannya untuk beberapa tugas motorik dll, tetapi bukan tugas pemecahan masalah intelektual). Manusia menggunakan paradigma pembelajaran yang berbeda yang secara signifikan lebih kuat dan efisien sampel dan yang belum ditemukan dan diskalakan dengan benar, meskipun ada sketsa dan ide awal (sebagai salah satu contoh, gagasan "pembelajaran cepat sistem", memindahkan pembaruan ke token/konteks bukan bobot dan secara opsional menyuling ke bobot sebagai proses terpisah seperti tidur).
302,16K
Prime Intellect memposting ulang
Generasi berikutnya dari startup produk penilaian 10B+ akan dibangun dengan menskalakan pelatihan di lingkungan RL internal
Kami hidup dalam banyak kemampuan namun kami hanya memiliki dua produk AI utama, chatgpt dan agen pengkodean, dan itu sangat membuat saya frustrasi
Rantai pasokan kecerdasan buatan saat ini secara struktural terputus dengan satu vendor perangkat keras, beberapa pemain AI raksasa yang memiliki semua kilang intelijen, pengembang dibiarkan dengan akses api tanpa kontrol
Seolah-olah era internet dibangun dengan Intel menjual CPU ke 4 cloud raksasa yang memiliki seluruh infrastruktur dan tumpukan perangkat lunak dengan rahasia dan nda di mana-mana dan memberikan wordpress sebagai kit pengembangan untuk startup
Mengapa kebingungan tidak menemukan penelitian mendalam? Mereka tidak bisa karena berlatih dengan RL
Prediksi saya untuk tahun-tahun ke depan:
RL akan menjadi toolkit paling kuat untuk startup membangun produk AI. Kita akan melihat ratusan kisah sukses seperti kursor dan menyenangkan. Pengguna akhir akan mendapatkan manfaat paling besar darinya
Laboratorium besar akan berkembang menjadi perusahaan produk, oai akan fokus pada pasar konsumen, Antropik pada agen pengkodean, deepmind akan mengintegrasikan AI ke dalam semua bisnis google, meta dan XAI bertarung di media sosial
Kita akan melihat munculnya ekosistem startup infrastruktur AI, menjual komputasi, model fondasi pelatihan, mengkurasi data, membangun lingkungan RL, menawarkan inferensi dan pelatihan murah, didukung oleh sains terbuka dan perangkat lunak sumber terbuka.
@PrimeIntellect memelopori ekosistem ini dan visi open source agi, RL environment hub adalah salah satu bagian kunci pertama
3,17K
Prime Intellect memposting ulang
Lingkungan RL sumber terbuka mungkin merupakan bagian terpenting yang hilang untuk penskalaan ke AGI sumber terbuka.
Kami telah membangun pusat komunitas untuk mengumpulkan mereka di tempat terbuka
Terima kasih kepada semua kontributor luar biasa yang telah menciptakan lingkungan selama beberapa hari terakhir

10,57K
Prime Intellect memposting ulang
Generasi berikutnya dari startup produk penilaian 10B+ akan dibangun dengan menskalakan pelatihan di lingkungan RL internal
Kami hidup dalam banyak kemampuan namun kami hanya memiliki dua produk AI utama, chatgpt dan agen pengkodean, dan itu sangat membuat saya frustrasi
Rantai pasokan kecerdasan buatan saat ini secara struktural terputus dengan satu vendor perangkat keras, beberapa pemain AI raksasa yang memiliki semua kilang intelijen, pengembang dibiarkan dengan akses api tanpa kontrol
Seolah-olah era internet dibangun dengan Intel menjual CPU ke 4 cloud raksasa yang memiliki seluruh infrastruktur dan tumpukan perangkat lunak dengan rahasia dan nda di mana-mana dan memberikan wordpress sebagai kit pengembangan untuk startup
Mengapa kebingungan tidak menemukan penelitian mendalam? Mereka tidak bisa karena berlatih dengan RL
**Prediksi saya untuk tahun-tahun ke depan**:
RL akan menjadi toolkit paling kuat untuk startup membangun produk AI. Kita akan melihat ratusan kisah sukses seperti kursor dan menyenangkan. Pengguna akhir akan mendapatkan manfaat paling besar darinya
Laboratorium besar akan berkembang menjadi perusahaan produk, oai akan fokus pada pasar konsumen, Antropik pada agen pengkodean, deepmind akan mengintegrasikan AI ke dalam semua bisnis google, meta dan XAI bertarung di media sosial
Kita akan melihat munculnya ekosistem startup infrastruktur AI, menjual komputasi, model fondasi pelatihan, mengkurasi data, membangun lingkungan RL, menawarkan inferensi dan pelatihan murah, didukung oleh sains terbuka dan perangkat lunak sumber terbuka.
@PrimeIntellect memelopori ekosistem ini dan visi open source agi, RL environment hub adalah salah satu bagian kunci pertama
6,29K
Kami sekarang mendukung Slurm (dan segera Kubernetes) untuk pengaturan multi-node H100, H200, dan B200 kami:


Jannik27 Agu, 00.15
Dukungan SLURM baru saja turun di Prime untuk pengaturan multi node H100, H200 dan B200 kami

7,38K
Kami sekarang mendukung Slurm (dan segera Kubernetes) untuk pengaturan multi-node H100, H200, dan B200 kami


Jannik27 Agu, 00.15
Dukungan SLURM baru saja turun di Prime untuk pengaturan multi node H100, H200 dan B200 kami

90
Prime Intellect memposting ulang
Mengumumkan kelompok ke-2 Hibah Infleksi – Compute Edition ☀️
Dalam kemitraan dengan @PrimeIntellect, kami memberikan 5 pembangun muda $2.000 dalam bentuk kredit komputasi untuk mendukung proyek perbatasan – yang mencakup AI, kesehatan, bioteknologi, dan ruang angkasa.
Temui penerima 👇 hibah

5,19K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal