🚨 Google 剛剛建立了一個自我改進的視頻生成 AI 它叫 VISTA,可能是自 Sora 以來文本轉視頻的最大飛躍。 這裡有個瘋狂的部分:它實際上會從視覺、聽覺和上下文上批評自己的視頻,然後重寫自己的提示,以使下一代更好。 不需要重新訓練。 不需要微調。 只是純粹的測試時間自我反思。 系統將你的提示分解成場景 → 生成多個視頻 → 在比賽中評判它們 → 然後使用三個內部“評論者”(視覺、音頻、上下文)來找出之前的不足,然後再試一次。 每一輪 = 更聰明、更清晰、更一致的視頻。 數字非常驚人: ⚡ 60% 的勝率對抗最先進的模型如 Veo 3 ⚡ 66.4% 的人類偏好 ⚡ 在保真度、運動和音頻對齊方面的實際改進,完全不觸碰模型權重 想像它像是一個 AI 導演,觀看自己的電影,在邊緣寫下筆記,然後在下一次拍攝中拍出更好的版本。 AI 創造力的未來不是訓練更大的模型。 而是賦予它們從自己身上學習的能力。 VISTA 剛剛製作了一個能自我學習如何改進的視頻。 完整論文: