這次控制是最後的。但它正在來臨。
Cristóbal Valenzuela
Cristóbal Valenzuela2024年11月14日
我經常談論人工智慧中的控制。但我意識到,有時人們會認為我指的是「更好的提示」。所以這裡是我對控制的看法:我們正在反向解決圖形問題。 計算機圖形的歷史遵循著明確的進程:首先是控制,然後是質量。花了幾十年時間來建立正確的抽象概念——曲線、三角形、多邊形、網格——這些概念使我們能夠在螢幕上精確地繪製我們想要的東西。這些基本的構建塊沒有太大變化,因為它們被證明是正確的。從 Ed Catmull 的手到現代遊戲引擎,我們控制像素的核心原則保持了驚人的穩定性。這些基本原則不僅是為了控制,也是為了有效地描述和渲染複雜場景。 渲染質量是最後的邊界。1987 年使用第一版 Renderman 建模的立方體遵循與今天在 Blender 中建模的立方體相同的幾何原則。截然不同的是渲染——燈光、材質、陰影和反射使其感覺真實。這個行業花了幾十年時間來縮小不真實的谷底,建立越來越複雜的渲染系統以接近照片真實感。當然,許多圖形創新同時改善了控制和質量,而圖形進步的歷史比單純的「控制然後質量」要複雜得多。 但這個順序並不是任意的。圖形管道本身強制執行這一點:幾何定義了我們想要繪製的內容,著色器決定了它的外觀。即使是實時引擎也遵循這一模式——首先建立細節層次控制,然後在這些限制內改善渲染質量。 人工智慧完全顛覆了這一進程。 今天的生成模型實現了與傳統管道相媲美或超越的照片真實渲染質量,通過大規模訓練有效地學習整個圖形堆棧——從幾何到全局照明——它們已經崩潰了建模和渲染之間的傳統分隔,創造了一個端到端的系統,可以從高層次的描述中生成驚人的圖像。 缺少的是控制。 雖然我們可以在幾秒鐘內生成照片真實的場景,但我們缺乏幾十年圖形研究所提供的精確控制。我們無法輕易調整幾何形狀、微調材質或以藝術家期望的細緻程度操控燈光。傳統圖形的確定性特性——每個參數都有可預測的效果——已被概率模型所取代。 這就是逆向圖形問題:我們在解決控制之前已經解決了渲染。我們的模型可以創造驚人的圖像,但缺乏使計算機圖形如此強大的基本抽象——在任何細節層次上進行精確、有意的變更的能力。 這不是一個永久的限制。正如計算機圖形最終解決了渲染問題,人工智慧也將解決控制問題。問題不在於是否,而在於如何。我們正在尋找控制生成模型的正確抽象——相當於革命化計算機圖形的曲線、三角形和多邊形。我認為解決方案可能看起來不同。對於神經網絡而言,原生的控制新原語可能是正確的答案,而不是試圖將傳統圖形概念強加於這一新範疇。雖然我也認為結合傳統圖形與人工智慧的混合方法值得探索。 目標仍然是提供與計算機圖形所帶來的創作表達基礎工具相同的可預測性和精確性。這是最終目標,但更好:實時、便宜,並且具有盡可能直觀和通用的精確控制。 這次控制排在最後。但它正在到來。
5.16K