余孫博士的研究:利用超曲面計算推進人工智慧 余孫博士與來自史丹佛大學、加州大學伯克利分校、加州大學聖地牙哥分校和德克薩斯大學奧斯汀分校的研究人員一起,利用Hyperbolic Labs的GPU基礎設施推進生成式人工智慧的前沿。 兩個突破性項目:分鐘級視頻生成和自適應RNNs。 🧵
分鐘長的視頻生成 🎥 大多數視頻模型如 Sora 和 Veo 的時長限制在約 20 秒。Sun 的團隊引入了測試時訓練(TTT)層——在推理過程中演變的自適應神經狀態,使得從單一提示生成 1 分鐘的視頻成為可能,且無需後期編輯。
基礎設施和結果 > 256× NVIDIA H100s 透過 @hyperbolic_ai > 模型:5B 參數 CogVideo-X > 上下文長度:300,000 個標記 > 運行時間:50 GPU 小時 > 數據集:7 小時的故事板卡通 > +34 Elo 對 Mamba 2 基線 > 論文 📄
具有表現力的隱藏狀態的 RNN 🔁 標準 RNN 在超過 16k 令牌後性能下降。孫博士的團隊構建了 TTT-Linear 和 TTT-MLP——可學習的神經網絡隱藏狀態。這些在推理過程中使用基於梯度的自我監督進行適應。
結果 > 上下文長度:32,000 個標記 > 模型規模:125M 到 1.3B 參數 > 運行速度提升:通過雙重形式優化提高 5 倍 > 線性時間,常數內存 > 超越或匹配 Transformer、Mamba、DeltaNet > 代碼:
超弦基礎 = 研究促進者 超弦的穩定、高吞吐量的 H100 集群支持 30 萬標記處理、持久環境以進行內部循環優化,以及可擴展的資源以進行 FLOP 匹配實驗。
"Hyperbolic 的 H100 GPU 和服務提供了可靠性,使我們能夠在測試時訓練中原型化我們的研究。他們的基礎設施使我們能夠更輕鬆地擴展模型,從文本故事板生成一分鐘的視頻。我們能夠專注於研究,而不是處理基礎設施問題。” — Dr. Yu Sun
生成式 AI 和序列建模的未來已經到來。隨著 TTT 層和可擴展計算,新的前沿正在被開啟。 現在可以按需租用 GPU 查看完整的部落格文章:
1.81K