Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pembukaan infrastruktur besar-besaran oleh pendiri @_xjdr.
XJDR adalah ilmuwan gila jadi ini membutuhkan waktu beberapa kali untuk saya pahami (dan saya masih berpikir saya mungkin tidak sepenuhnya memahami potensinya)
Dia sepenuhnya menulis ulang tumpukan pelatihan untuk model Mix of Experts MoE (arsitektur di balik DeepSeek) untuk peneliti dengan komputasi terbatas (yaitu dunia di luar hyperscaler)
Biasanya melatih model jarang ini membutuhkan cluster besar dan sangat tidak stabil. XJDR membangun tumpukan baru dari awal untuk membuatnya efisien hanya pada satu node
Infra Standar: Membutuhkan kluster GPU besar (seringkali tidak stabil)
Tumpukan XJDR: Penskalaan yang dapat diprediksi pada GPU Tunggal ke 8 node GPU.
Nuansanya di sini adalah bahwa alih-alih mengandalkan komputasi brute force untuk menghaluskan kesalahan, ia memecahkan kemacetan teknik spesifik seperti keruntuhan router untuk membuat pelatihan presisi campuran stabil pada perangkat keras kecil.
Dia juga membangun pipeline data frontier-grade di mana model oracle 120B menilai data untuk memastikan model yang lebih kecil belajar lebih cepat.
TLDR: Dia membuka sumber seluruh repositori pabrik, alat data, dan bobot untuk mendemokratisasi kemampuan penelitian tingkat Google untuk individu.
Selamat @_xjdr. Kami sangat senang menjadi bagian kecil dari perjalanan Anda. Aman untuk mengatakan sangat bersemangat bagi Anda untuk membagikan karya Anda
Teratas
Peringkat
Favorit
