Parlo spesso di controllo nell'IA. Ma mi sono reso conto che a volte le persone pensano che intenda "migliori prompt". Quindi ecco i miei pensieri su cosa intendo per controllo: stiamo risolvendo la grafica all'indietro. La storia della grafica computerizzata segue una chiara progressione: prima è arrivato il controllo, poi la qualità. Ci sono voluti decenni per stabilire le giuste astrazioni - curve, triangoli, poligoni, mesh - che ci avrebbero permesso di disegnare esattamente ciò che volevamo su uno schermo. Questi elementi fondamentali non sono cambiati molto perché si sono dimostrati quelli giusti. Dalla mano di Ed Catmull ai moderni motori di gioco, i principi fondamentali di come controlliamo i pixel sono rimasti notevolmente stabili. Le fondamenta sono emerse non solo per il controllo, ma come modi efficienti per descrivere e rendere scene complesse. La qualità di rendering è stata l'ultima frontiera. Un cubo modellato nel 1987 utilizzando la prima versione di Renderman segue gli stessi principi geometrici di uno modellato in Blender oggi. Ciò che è drammaticamente diverso è il rendering - l'illuminazione, i materiali, le ombre e i riflessi che lo fanno sembrare reale. L'industria ha trascorso decenni a chiudere la valle inquietante, costruendo sistemi di rendering sempre più sofisticati per avvicinarsi al fotorealismo. Naturalmente, molte innovazioni grafiche hanno migliorato sia il controllo che la qualità simultaneamente, e la storia del progresso grafico è più complessa di un semplice "controllo poi qualità." Ma quest'ordine non era arbitrario. Il pipeline grafico stesso lo impone: la geometria definisce ciò che vogliamo disegnare, gli shader determinano come appare. Anche i motori in tempo reale seguono questo schema - prima stabilendo i controlli del livello di dettaglio, poi migliorando la qualità di rendering all'interno di quei vincoli. L'IA ha completamente invertito questa progressione. I modelli generativi di oggi raggiungono una qualità di rendering fotorealistica che rivaleggia o supera i pipeline tradizionali, imparando efficacemente l'intero stack grafico - dalla geometria all'illuminazione globale - attraverso un addestramento su larga scala. Hanno collassato la separazione tradizionale tra modellazione e rendering, creando un sistema end-to-end che può produrre immagini straordinarie da descrizioni ad alto livello. Ciò che manca è il controllo. Mentre possiamo generare scene fotorealistiche in secondi, ci manca il controllo preciso che decenni di ricerca grafica hanno fornito. Non possiamo facilmente regolare la geometria, perfezionare i materiali o manipolare l'illuminazione con la granularità che gli artisti si aspettano. La natura deterministica della grafica tradizionale - dove ogni parametro ha un effetto prevedibile - è stata sostituita da modelli probabilistici. Questo è il problema della grafica inversa: abbiamo risolto il rendering prima di risolvere il controllo. I nostri modelli possono creare immagini straordinarie ma mancano delle astrazioni fondamentali che hanno reso la grafica computerizzata così potente - la capacità di apportare modifiche precise e intenzionali a qualsiasi livello di dettaglio. Questa non è una limitazione permanente. Proprio come la grafica computerizzata ha infine risolto il problema del rendering, l'IA risolverà il problema del controllo. La domanda non è se, ma come. Stiamo trovando le giuste astrazioni per controllare i modelli generativi - l'equivalente delle curve, triangoli e poligoni che hanno rivoluzionato la grafica computerizzata prima. Penso che le soluzioni potrebbero apparire diverse. Nuovi primitivi per il controllo che sono nativi delle reti neurali potrebbero essere la risposta giusta piuttosto che cercare di forzare i concetti grafici tradizionali in questo nuovo paradigma. Anche se penso che ci siano approcci ibridi che combinano grafica tradizionale con IA che meritano di essere esplorati. L'obiettivo rimane quello di fornire lo stesso livello di prevedibilità e precisione che ha reso la grafica computerizzata uno strumento fondamentale per l'espressione creativa. Questo è l'obiettivo finale, ma meglio: in tempo reale, economico e con un controllo preciso che sia il più intuitivo e generale possibile. Il controllo arriva per ultimo questa volta. Ma sta arrivando.
109,54K