熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
余孫博士的研究:利用超曲面計算推進人工智慧
余孫博士與來自史丹佛大學、加州大學伯克利分校、加州大學聖地牙哥分校和德克薩斯大學奧斯汀分校的研究人員一起,利用Hyperbolic Labs的GPU基礎設施推進生成式人工智慧的前沿。
兩個突破性項目:分鐘級視頻生成和自適應RNNs。 🧵

分鐘長的視頻生成 🎥
大多數視頻模型如 Sora 和 Veo 的時長限制在約 20 秒。Sun 的團隊引入了測試時訓練(TTT)層——在推理過程中演變的自適應神經狀態,使得從單一提示生成 1 分鐘的視頻成為可能,且無需後期編輯。
基礎設施和結果
> 256× NVIDIA H100s 透過 @hyperbolic_ai
> 模型:5B 參數 CogVideo-X
> 上下文長度:300,000 個標記
> 運行時間:50 GPU 小時
> 數據集:7 小時的故事板卡通
> +34 Elo 對 Mamba 2 基線
> 論文 📄
具有表現力的隱藏狀態的 RNN 🔁
標準 RNN 在超過 16k 令牌後性能下降。孫博士的團隊構建了 TTT-Linear 和 TTT-MLP——可學習的神經網絡隱藏狀態。這些在推理過程中使用基於梯度的自我監督進行適應。
結果
> 上下文長度:32,000 個標記
> 模型規模:125M 到 1.3B 參數
> 運行速度提升:通過雙重形式優化提高 5 倍
> 線性時間,常數內存
> 超越或匹配 Transformer、Mamba、DeltaNet
> 代碼:
超弦基礎 = 研究促進者
超弦的穩定、高吞吐量的 H100 集群支持 30 萬標記處理、持久環境以進行內部循環優化,以及可擴展的資源以進行 FLOP 匹配實驗。
"Hyperbolic 的 H100 GPU 和服務提供了可靠性,使我們能夠在測試時訓練中原型化我們的研究。他們的基礎設施使我們能夠更輕鬆地擴展模型,從文本故事板生成一分鐘的視頻。我們能夠專注於研究,而不是處理基礎設施問題。” — Dr. Yu Sun

生成式 AI 和序列建模的未來已經到來。隨著 TTT 層和可擴展計算,新的前沿正在被開啟。
現在可以按需租用 GPU
查看完整的部落格文章:
1.81K
熱門
排行
收藏