余孙博士的研究:利用超曲面计算推进人工智能 余孙博士与斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校和德克萨斯大学奥斯汀分校的研究人员一起,利用Hyperbolic Labs的GPU基础设施推动生成式人工智能的前沿。 两个突破性项目:分钟级视频生成和自适应RNN。🧵
一分钟视频生成 🎥 大多数视频模型如 Sora 和 Veo 的时长限制在约 20 秒。Sun 的团队引入了测试时训练(TTT)层——在推理过程中演变的自适应神经状态,使得从单个提示生成 1 分钟视频成为可能,无需后期编辑。
基础设施和结果 > 256× NVIDIA H100s 通过 @hyperbolic_ai > 模型:5B 参数 CogVideo-X > 上下文长度:300,000 个标记 > 运行时间:50 GPU 小时 > 数据集:7 小时的分镜动画 > +34 Elo 对比 Mamba 2 基线 > 论文 📄
具有表现力的隐藏状态的RNN 🔁 标准RNN在超过16k个标记后性能下降。孙博士的团队构建了TTT-Linear和TTT-MLP——可学习的神经网络隐藏状态。这些在推理过程中使用基于梯度的自我监督进行适应。
结果 > 上下文长度:32,000个标记 > 模型规模:125M到1.3B参数 > 运行速度提升:通过双重形式优化提高5倍 > 线性时间,常量内存 > 超过或匹配Transformer、Mamba、DeltaNet > 代码:
超曲面基础设施 = 研究促进者 超曲面的稳定、高吞吐量的H100集群支持300k-token处理、持久环境用于内循环优化,以及可扩展资源用于FLOP匹配实验。
“Hyperbolic 的 H100 GPU 和服务提供了可靠性,使我们能够在测试时间训练中原型化我们的研究。他们的基础设施使我们更容易将模型扩展到从文本故事板生成一分钟的视频。我们能够专注于研究,而不是处理基础设施问题。” — 余孙博士
生成性人工智能和序列建模的未来已经到来。借助TTT层和可扩展计算,新的前沿正在被开启。 现在可以按需租用GPU 查看完整博客:
1.84K