Kontrollen kommer sist den här gången. Men det kommer.
Cristóbal Valenzuela
Cristóbal Valenzuela14 nov. 2024
Jag pratar ofta om styrning inom AI. Men jag har insett att folk ibland tror att jag menar "bättre uppmaningar". Så här är mina tankar om vad jag menar med kontroll: Vi löser grafik baklänges. Datorgrafikens historia följer en tydlig utveckling: först kom kontroll, sedan kvalitet. Det tog årtionden att etablera de rätta abstraktionerna - kurvor, trianglar, polygoner, maskor - som skulle göra det möjligt för oss att rita exakt vad vi ville på en skärm. Dessa grundläggande byggstenar har inte förändrats mycket eftersom de visade sig vara de rätta. Från Ed Catmulls hand till moderna spelmotorer har de grundläggande principerna för hur vi kontrollerar pixlar förblivit anmärkningsvärt stabila. Grunderna uppstod inte bara för kontroll, utan som effektiva sätt att beskriva och återge komplexa scener. Renderingskvalitet var den sista gränsen. En kub som modellerades 1987 med den första versionen av Renderman följer samma geometriska principer som en kub som modelleras i Blender idag. Det som skiljer sig dramatiskt är renderingen - belysningen, materialen, skuggorna och reflektionerna som gör att det känns verkligt. Branschen tillbringade årtionden med att stänga den kusliga dalen och bygga allt mer sofistikerade renderingssystem för att närma sig fotorealism. Naturligtvis har många grafikinnovationer förbättrat både kontroll och kvalitet samtidigt, och historien om grafikens framsteg är mer komplex än bara "kontroll och sedan kvalitet". Men denna ordning var inte godtycklig. Själva grafikpipelinen tvingar fram det: geometrin definierar vad vi vill rita, shaders bestämmer hur det ser ut. Till och med realtidsmotorer följer det här mönstret – först etablerar de detaljnivåkontroller och förbättrar sedan renderingskvaliteten inom dessa begränsningar. AI har helt vänt upp och ner på denna utveckling. Dagens generativa modeller uppnår fotorealistisk renderingskvalitet som konkurrerar med eller överträffar traditionella pipelines, och lär sig effektivt hela grafikstacken – från geometri till global belysning – genom träning i massiv skala. De har brutit den traditionella uppdelningen mellan modellering och rendering och skapat ett system från början till slut som kan producera fantastiska bilder från beskrivningar på hög nivå. Det som saknas är kontroll. Även om vi kan skapa fotorealistiska scener på några sekunder, saknar vi den exakta kontroll som årtionden av grafisk forskning har gett. Vi kan inte enkelt justera geometrin, finjustera material eller manipulera belysningen med den detaljrikedom som konstnärer förväntar sig. Den deterministiska karaktären hos traditionell grafik - där varje parameter har en förutsägbar effekt - har ersatts av probabilistiska modeller. Det här är det omvända grafikproblemet: vi har löst rendering innan vi löser kontrollen. Våra modeller kan skapa fantastiska bilder men saknar de grundläggande abstraktionerna som gjorde datorgrafik så kraftfull - förmågan att göra exakta, avsiktliga ändringar på alla detaljnivåer. Detta är inte en permanent begränsning. Precis som datorgrafik så småningom löste renderingsproblemet, kommer AI att lösa kontrollproblemet. Frågan är inte om, utan hur. Vi hittar de rätta abstraktionerna för att styra generativa modeller - motsvarigheten till de kurvor, trianglar och polygoner som revolutionerade datorgrafiken tidigare. Jag tror att lösningarna kan se olika ut. Nya primitiver för kontroll som är inbyggda i neurala nätverk kan vara det rätta svaret i stället för att försöka tvinga in traditionella grafikkoncept i det här nya paradigmet. Även om jag också tycker att det finns hybridmetoder som kombinerar traditionell grafik med AI som är värda att utforska. Målet är fortfarande att ge samma nivå av förutsägbarhet och precision som gjorde datorgrafik till ett grundläggande verktyg för kreativa uttryck. Det är det ultimata målet, men bättre: i realtid, billigt och med exakt kontroll som är så intuitiv och generell som möjligt. Kontrollen kommer sist den här gången. Men det kommer.
5,14K