Sora與世界模型
“真實(shí)感”本身就是一種涌現(xiàn)。
2月15日,OpenAI發(fā)布了Sora模型,能夠根據(jù)提示詞生成長(zhǎng)達(dá)一分鐘的視頻,效果以假亂真。
Sora究竟是怎么做到的呢?
微軟研究院在近期發(fā)布了一篇論文,對(duì)Sora背后的技術(shù)框架給出了猜測(cè),還是有較高的可信度的。
我先給大家講一下重點(diǎn)。
關(guān)鍵技術(shù)一:DiT。Sora模型與此前同類模型相比,最大的區(qū)別在于使用DiT作為模型的主網(wǎng)架構(gòu)。
DiT全稱為Diffusion Transformer,其本質(zhì)是DDPM與Transformer的結(jié)合。DDPM即去噪擴(kuò)散概率模型,是一種傳統(tǒng)的擴(kuò)散模型。
Sora和Runway、Pika都用了Diffusion擴(kuò)散模型。不同之處在于,Sora把主網(wǎng)架構(gòu)從U-Net換成了Transformer。
值得一提的事,DiT并不是一個(gè)新模型,是去年3月份發(fā)布的,兩個(gè)作者分別是Peebles和謝賽寧。
Peeble在不久之后進(jìn)入了OpenAI,成為Sora模型的核心主力,而謝賽寧教授則在紐約大學(xué)任教。
有趣的是,當(dāng)時(shí)他倆的這篇跨時(shí)代的論文,被CVPR拒稿了,因?yàn)閯?chuàng)新不足(limited novelty)。
關(guān)鍵技術(shù)二:視頻壓縮網(wǎng)絡(luò)與時(shí)空區(qū)塊。視頻數(shù)據(jù)包含的信息量巨大,如果不進(jìn)行壓縮處理就開(kāi)始訓(xùn)練,會(huì)消耗大量帶寬和存儲(chǔ)資源。
因此,Sora通過(guò)“視頻壓縮網(wǎng)絡(luò)”技術(shù),將輸入的圖片或視頻壓縮成一個(gè)更低維度的表示形式。
根據(jù)推測(cè),這里的視頻壓縮網(wǎng)絡(luò),大概率使用了VAE,即變分自編碼器。接下來(lái),Sora將這些壓縮后的數(shù)據(jù)進(jìn)一步分解為“時(shí)空區(qū)塊”(Spacetime Latent Patches),統(tǒng)一了圖像、視頻在“時(shí)間”與“空間”這兩個(gè)維度上的數(shù)據(jù)表達(dá)。
這就是Sora能夠不限分辨率、視頻時(shí)長(zhǎng)、視頻尺寸進(jìn)行訓(xùn)練的原因。
理論上看,只要算力足夠,Sora生成的視頻長(zhǎng)度可以無(wú)限長(zhǎng),圖像效果可以無(wú)限逼近真實(shí)。
我們知道,涌現(xiàn)能力(Emergent Abilities)是本輪AI的第一性原理。
如果說(shuō)ChatGPT是涌現(xiàn)能力在文本生成方面的體現(xiàn),那么Sora模型就是涌現(xiàn)能力在視頻生成領(lǐng)域的體現(xiàn)。
關(guān)于Sora是否存在涌現(xiàn),一直存在爭(zhēng)議。我認(rèn)為這個(gè)結(jié)論是相當(dāng)明確的。
因?yàn)?,“真?shí)感”本身就是一種涌現(xiàn)。
這次Sora生成的視頻,很多朋友看到的第一感受,就是“真實(shí)”。
其實(shí),要讓我們?nèi)祟惛杏X(jué)到真實(shí),是一件看起來(lái)簡(jiǎn)單,實(shí)則非常困難的事情。
因?yàn)檎鎸?shí)感的背后,是無(wú)數(shù)細(xì)節(jié)的堆疊。
以Sora生成的貓貓走路視頻為例。這個(gè)視頻看起來(lái)很真實(shí),是因?yàn)椋?/p>
潮濕地面的光影反射,符合基本光學(xué)原理。貓貓走路是四肢協(xié)調(diào),符合基本的曲柄連桿機(jī)械原理,以及自由度限制。貓咪毛茸茸且飄逸的毛發(fā),符合基本的流體力學(xué)原理,等等。
只要其中有哪怕一處細(xì)節(jié)與常識(shí)嚴(yán)重不符,就會(huì)打破“真實(shí)感”。所以,真實(shí)感,其實(shí)也是一種涌現(xiàn)。需要無(wú)數(shù)個(gè)細(xì)節(jié)的擬真,才會(huì)涌現(xiàn)出真實(shí)感。
Sora告訴我們,通過(guò)訓(xùn)練大型視頻生成模型,有望構(gòu)建真正意義上的物理世界模型,從而增進(jìn)我們對(duì)世界的理解。
相信Sora只是開(kāi)始,還有更多的精彩在路上。
版權(quán)聲明
本刊及官網(wǎng)(南風(fēng)窗在線)刊登的所有作品(包括但不限于文字、圖片、聲音、錄像、圖表、標(biāo)志、標(biāo)識(shí)、廣告、商標(biāo)、商號(hào)、域名、程序、版面設(shè)計(jì)、專欄目錄與名稱、內(nèi)容分類標(biāo)準(zhǔn)及多媒體形式的新聞、信息等)未經(jīng)南風(fēng)窗雜志社書(shū)面許可,不得轉(zhuǎn)載、摘編或以其他形式使用,違者必究。
版權(quán)合作垂詢電話020-61036188轉(zhuǎn)8088,文小姐。