Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ketika datang ke pelatihan terdistribusi AI, saya menemukan bahwa orang-orang di lingkaran web2AI akan melabelinya sebagai "proposisi palsu", dengan alasan bahwa perangkat daya komputasi dapat digabungkan, tetapi ada biaya bandwidth yang mengerikan untuk kolaborasi terdistribusi dan efektif? Dan @0G_labs baru-baru ini menerbitkan makalah DiLoCox, tampaknya tujuannya adalah untuk menyelesaikan masalah ini? Mari kita bicarakan secara rinci:
1) Mari kita bicara tentang mengapa pelatihan terdistribusi dianggap sebagai "proposisi palsu". Kontradiksi intinya sederhana: Anda ingin mengganti 100 A100 dengan menggabungkan 100 GPU murah, yang tampaknya menghemat 90% dari biaya perangkat keras, tetapi 100 GPU ini perlu dilatih secara sinkron, dan setiap zaman harus bertukar terabyte data gradien.
Solusi tradisional membutuhkan bandwidth saluran khusus 100Gbps, sementara menjangkau jaringan tingkat pusat data 100Gbps dapat menelan biaya ratusan ribu dolar per bulan. Secara total, semua uang GPU yang Anda hemat dihabiskan untuk bandwidth, dan bahkan terbalik. Menurut logika ini, menghemat biaya mesin tetapi menimbulkan biaya bandwidth tambahan tidak berarti bahwa masalah belum terpecahkan? Oleh karena itu, inti dari dikritik sebagai proposisi palsu selalu ada di sini.
2) Makalah DiLoCoX 0G menarik perhatian karena mereka mengklaim melatih model parameter 107B pada jaringan 1Gbps (bandwidth kantor normal), yang 357 kali lebih cepat daripada skema AllReduce tradisional. Angka ini benar-benar eksplosif - Anda tahu, 1Gbps vs 100Gbps, perbedaan bandwidth 100 kali, tetapi kecepatan pelatihannya 357 kali lebih cepat?
Bagaimana cara melakukannya? Setelah studi kasar, ditemukan bahwa serangkaian skema ini telah membuat empat pengoptimalan:
Paralelisme Alur membagi model menjadi segmen;
Kebijakan Pengoptimal Ganda Mengurangi frekuensi sinkronisasi dengan kebijakan pengoptimal ganda; One-Step-Delay Overlap memungkinkan komunikasi dan komputasi berjalan secara paralel tanpa menunggu satu sama lain. Kompresi Gradien Adaptif secara cerdas mengompresi gradien.
Dalam istilah awam, itu adalah untuk mengubah "sinkronisasi kuat real-time" yang diperlukan asli menjadi "sinkronisasi lemah asinkron", dan mengubah "transmisi data penuh" menjadi "transmisi inkremental terkompresi".
Misalnya, sementara solusi tradisional seperti konferensi video real-time 100 orang, di mana setiap tindakan setiap orang disiarkan secara bersamaan, DiLoCoX seperti semua orang merekam secara terpisah dan kemudian hanya mengirim keyframe dan perubahan. Volume lalu lintas telah menurun 100 kali lipat, tetapi integritas informasi tetap di atas 99%.
Mengapa ini mungkin? Menurut pendapat saya, intinya adalah bahwa mereka menangkap fitur pelatihan AI - toleransi kesalahan. Melatih model tidak seperti transfer transaksi, yang tidak kurang sepeser pun. Pembaruan gradien agak salah, sinkronisasi tertunda, dan efek konvergensi model akhir memiliki sedikit dampak.
DiLoCoX menggunakan "ruang toleransi kesalahan" ini untuk menukar kerugian akurasi yang dapat diterima dengan peningkatan efisiensi besar. Ini adalah pemikiran teknik yang khas - tidak mengejar kesempurnaan, mengejar kinerja biaya terbaik.
3) Tapi itu tidak cukup untuk menyelesaikan masalah bandwidth, 0G jelas lebih ambisius. Lihat saja arsitektur mereka secara keseluruhan: mereka juga memiliki lapisan penyimpanan $10/TB yang secara langsung mengklaim menghancurkan Filecoin, dan lapisan DA dirancang untuk AI untuk mencapai throughput tingkat GB.
Alasan mengapa desain dapat mencapai penyimpanan 100 kali lebih murah adalah terus terang, ini juga merupakan pengoptimalan khusus dari skenario pelatihan AI, misalnya, siklus hidup pos pemeriksaan dan log yang dihasilkan selama proses pelatihan hanya beberapa hari, pada kenyataannya, tidak perlu secara ketat mencapai "penyimpanan permanen".
Oleh karena itu, pada kenyataannya, solusi pragmatis "penyimpanan berjenjang" diadopsi, dan hanya tingkat layanan yang sesuai yang disediakan saat dibutuhkan - data panas dibaca dan ditulis dengan cepat tetapi lebih mahal, data dingin lebih murah tetapi lebih lambat, dan data sementara adalah yang termurah untuk dihapus saat habis.
Dan harga yang berbeda inilah yang secara langsung menyentuh poin-poin penting dari pelatihan AI.
Atas.
Terlihat bahwa 0G Labs sengaja melakukan adaptasi AI terhadap masalah daya komputasi, penyimpanan, dan sirkulasi data dalam proses pelatihan AI. Bahkan mekanisme konsensus telah dioptimalkan untuk AI. Versi CometBFT yang ditingkatkan digunakan dengan 2500+ TPS dengan finalitas di bawah detik, yang secara khusus disetel untuk karakteristik asinkron dari beban kerja AI, dll.
Dengan kata lain, alih-alih "menambal" AI pada blockchain yang ada, 0G telah merancang infrastruktur "AI Native" dari awal. Adapun apakah akhirnya dapat memperoleh verifikasi komersial tingkat aplikasi di bawah tekanan persaingan dengan AI tradisional, masih harus dilihat, tetapi ide terobosan yang berbeda ini layak untuk dipelajari.
4,94K
Teratas
Peringkat
Favorit