Det har skapats en hel del galna många kamerariggar för att fånga fullständig rumslig video.  Jag minns ett samtal på Meta som i princip handlade om "vi ska satsa så hårt som möjligt på klassiskt geometriskt datorseende innan vi tittar på maskininlärningsalgoritmer", och jag stödde den riktningen. Det var för många år sedan, när ML fortfarande kändes som oförutsägbar alkemi, och självklart vill du maximera din användning av den grundläggande sanningen! Hårt ingenjörsarbete lades ner på kamerakalibrering, synkronisering och databehandling, men det levererade aldrig riktigt upp till visionen. Oavsett hur många kameror du har, kommer alla komplexa rörliga objekt att ha tilltäppta områden, och "hål i verkligheten" sticker ut starkt för en tittare som inte exakt befinner sig vid en av kamerapunkterna. Även när du har god sikt gör tvetydigheterna i fotogrammetri med flera kameror att saker och ting blir mindre exakta än du skulle vilja. Det gjordes också en del experiment för att se hur bra man kunde göra 3D-scenrekonstruktionen från Quest-kamerorna med hjälp av offline-beräkning, och svaret var fortfarande "inte särskilt bra", med ganska knöliga ytor. Många 3D-rekonstruktioner ser fantastiska ut när de scrollar förbi i flödet på din telefon, men inte så bra uppblåsta till en helt uppslukande VR-rendering och satta i kontrast till ett traditionellt foto av hög kvalitet. Du behöver verkligen starka priors för att driva anpassningsproblemet och fylla i luckor i täckningen. För arkitektoniska scener kan du få ut en viss körsträcka av enkla plana tidigare, men modern generativ AI är den ultimata tidigare. Även om de galna kamerariggarna helt och hållet höll vad de lovade, skulle de fortfarande inte ha möjliggjort ett bra innehållsekosystem. YouTube skulle inte ha lyckats om varje kreatör behövde en RED Digital Cinema-kamera. Den (ganska bra!) stereoskopiska 3D-fotogenereringen i Quest Instagram är ett babysteg mot framtiden. Det finns sökvägar till stereovideo och 6DOF statisk, sedan så småningom till 6DOF video. Gör allt uppslukande och tillåt sedan skräddarsydd justering av immersivt medveten media.
162,32K