Penelitian oleh Dr. Yu Sun: Memajukan AI dengan Komputasi Hiperbolik Dr. Yu Sun, bersama para peneliti dari Stanford, UC Berkeley, UCSD, dan UT Austin, mendorong batas AI generatif menggunakan infrastruktur GPU Hyperbolic Labs. Dua proyek terobosan: pembuatan video berdurasi satu menit dan RNN adaptif. 🧵
Pembuatan 🎥 Video Berdurasi Satu Menit Sebagian besar model video seperti Sora dan Veo berbatasan pada ~20 detik. Tim Sun memperkenalkan lapisan Test-Time Training (TTT) — keadaan saraf adaptif yang berkembang pada inferensi — membuat video berdurasi 1 menit dari satu prompt dimungkinkan tanpa pasca-pengeditan.
Infra dan Hasil > 256× NVIDIA H100s melalui @hyperbolic_ai Model >: 5B param CogVideo-X > Panjang Konteks: 300.000 token > Runtime: 50 GPU-jam > Dataset: Kartun storyboard 7 jam > +34 Elo vs Mamba 2 baseline > Kertas 📄
RNN dengan Status 🔁 Tersembunyi Ekspresif RNN standar menurun melebihi 16k token. Tim Dr. Sun membangun TTT-Linear dan TTT-MLP—keadaan tersembunyi yang merupakan jaringan saraf yang dapat dipelajari. Ini beradaptasi selama inferensi menggunakan pengawasan diri berbasis gradien.
Hasil > Panjang Konteks: 32.000 token > Skala Model: Parameter 125M hingga 1.3B > Runtime Speedup: 5× melalui pengoptimalan bentuk ganda > Memori konstan waktu linier > Mengungguli atau mencocokkan Transformer, Mamba, DeltaNet Kode >:
Infra Hiperbolik = Pendukung Penelitian Kluster H100 Hyperbolic yang stabil dan throughput tinggi mendukung pemrosesan 300k-token, lingkungan persisten untuk pengoptimalan loop dalam, dan sumber daya yang dapat diskalakan untuk eksperimen yang cocok dengan FLOP.
"GPU dan layanan H100 Hyperbolic memberikan keandalan yang memungkinkan kami membuat prototipe penelitian kami dalam pelatihan waktu pengujian. Infrastruktur mereka memudahkan untuk menskalakan model kami untuk menghasilkan video berdurasi satu menit dari storyboard teks. Kami dapat fokus pada penelitian daripada berurusan dengan masalah infrastruktur." — Dr. Yu Sun
Masa depan AI generatif dan pemodelan urutan ada di sini. Dengan lapisan TTT dan komputasi yang dapat diskalakan, batas baru dibuka. Sewa GPU sesuai permintaan sekarang di Lihat blog lengkapnya:
1,91K