🚨 谷歌刚刚构建了一个自我改进的视频生成AI 它叫VISTA,可能是自Sora以来文本到视频的最大飞跃。 这里有个疯狂的部分:它实际上会从视觉、听觉和上下文上批评自己的视频,然后重写自己的提示,以使下一代更好。 无需重新训练。 无需微调。 只是纯粹的测试时自我反思。 该系统将你的提示分解为场景 → 生成多个视频 → 在比赛中评判它们 → 然后使用三个内部“评论者”(视觉、音频、上下文)来找出哪些地方不好,然后再尝试。 每个循环 = 更聪明、更清晰、更一致的视频。 这些数字真疯狂: ⚡ 60%的胜率,超过像Veo 3这样的最先进模型 ⚡ 66.4%的人类偏好 ⚡ 在保真度、运动和音频对齐方面的真实改进,完全不触碰模型权重 把它想象成一个AI导演,观看自己的电影,在边缘写下笔记,并在下一次拍摄时拍摄更好的版本。 AI创造力的未来不是训练更大的模型。 而是赋予它们从自身学习的能力。 VISTA刚刚制作了一个能够自我改进的视频。 完整论文: