Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pelatihan model fondasi open source besar-besaran yang dibuka oleh @_xjdr
XJDR adalah ilmuwan gila jadi saya butuh beberapa lintasan untuk benar-benar mendapatkannya, dan saya mungkin masih belum sepenuhnya menghargai keseluruhan hasilnya.
Biasanya, jika Anda ingin melatih model dasar baru dari awal, Anda memerlukan banyak GPU hanya untuk mendapatkan pelatihan yang serius dari tanah. Mahal.
Salah satu jenis yang paling sulit untuk dilatih adalah desain Campuran Ahli gaya DeepSeek. Ini kuat, tetapi sistem perutean dan pengaturan pelatihan sangat rewel sehingga tes skala kecil sering berantakan. Jadi Anda akhirnya membutuhkan cluster besar hanya untuk mempelajari apa pun, dan ketika lari gagal, Anda tidak dapat mengetahui apakah ide Anda salah atau jika pengaturannya rusak begitu saja penelitian mati dan Anda tidak belajar apa-apa
XJDR adalah nmoe, pabrik pelatihan siap pakai yang terhubung seperti yang dilakukan seorang ahli, khususnya agar kelas model ini dapat dilatih dan diteliti pada satu mesin tanpa kerusakan terus-menerus. Eksperimen kecil berperilaku seperti pelatihan nyata, sehingga Anda bisa mendapatkan ya atau tidak yang bersih sebelum menghabiskan delapan angka dan waktu berbulan-bulan.
Pada kenyataannya, orang dapat menjalankan uji coba yang murah dan cepat di mana Anda mengubah satu hal pada satu waktu, seperti bagaimana rute model bekerja di antara spesialis, bagaimana ia belajar (resep pelatihan), data apa yang Anda berikan, dan bagaimana Anda memeras lebih banyak kualitas per dolar. Anda pada dasarnya menguji stres ide-ide baru untuk model dasar yang lebih baik dengan cara yang sama seperti Anda menguji produk A/B tetapi Anda dapat melakukannya di luar laboratorium besar.
Dampak bersihnya adalah iterasi yang lebih cepat dan penghematan biaya besar, ditambah lebih banyak tim yang dapat membangun model fondasi baru secara realistis. Itu bisa berarti model kelas DeepSeek yang lebih baik, model gaya spesialis baru, dan lebih banyak persaingan dan penelitian terbuka karena biaya masuk turun keras dan lebih banyak terobosan terjadi di depan umum
Nantikan dia open source sebagian besar!
Selamat @_xjdr. Kami sangat senang mendukung Anda dan menjadi bagian kecil dari cerita Anda
Teratas
Peringkat
Favorit
