20多年前,我逃課去看【黑客帝國】。
墨菲斯說:歡迎來到真實世界。
一下子夢醒了,回到教室的時候,老師在講國有企業改制過程中的頂層設計問題。
你看到的,就是真實嗎?
時光荏苒,終於忘記了很多人,終於忘記了很多事。
一覺醒來,AI圈裏沸騰了,大家發現現實不存在了。
OpenAI釋出影片大模型的預告,能夠生成60秒完整影片。
這個大模型叫Sora。
作為一個AI工具的重度使用者,平均每天使用生成式AI和AI繪畫工具超過2小時。
對Sora最感興趣的一點,是它生成的畫面不崩、不閃。
事實上,現階段開源AI繪畫工具也能生成影片,但大多數在4秒之內,而且最大的缺點是臉崩和閃爍。
臉崩的原因是很多大模型很難處理大幅畫面的時候的面部細節,閃爍的原因是現階段大模型都是逐幀生成畫面,然後拼成影片,每一幀的畫面細節有變化的時候就會閃爍。
從這一點上來說,在Sora面前,目前所有的影片大模型都得跪下。
有分析人士認為,Sora使用了遊戲引擎。我也認同這一觀點,使用遊戲引擎能夠巧妙的繞開逐幀生成畫面再拼接的弊端。
輝達高級科學家Jim Fan對Sora發表了一些自己的觀點:
Sora是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的,還是虛構的。該模擬器透過去噪和梯度學習方式,學習了復雜的渲染、「直觀的」物理、長期推理和語意理解。
如果Sora使用虛幻引擎5接受過大量合成數據的訓練,我不會感到驚訝的。必須如此!
在ChatGPT3.5推出之前,ChatGPT釋出了幾個版本,雖然表現驚艷,但能力有限,也是不溫不火。3.5一炮走紅後,再接再厲推出了付費的4.0版本。
不管多麽驚人,ChatGPT至少是有「前奏」的,它的基本原理和執行邏輯,以及進展,對AI感興趣的人,都是有了解的。
Sora的出現有點措手不及,就在昨天的時候,大家還在為AI影片去閃問題絞盡腦汁,畢竟大家都看過基於現有技術水平的論文,知道瓶頸在哪裏,知道上限在哪裏。Sora就像跳出了人類科技,突然到來的天頂星科技。
但是!
如果使用了遊戲引擎(比如虛幻5)的話,這一切又都可以理解了。只能說之前的AI影片走的是AI繪畫的老路,想當然的認為 影片=繪畫逐幀疊加,Sora巧妙的換了個路線,依然是ChatGPT的邏輯,用數據去驅動遊戲引擎,再由遊戲引擎生成畫面。
這樣的技術並沒有超越現有科技水平,只是骨骼驚奇,之前確實沒有人想象到。
ChatGPT 先把接收到的文字轉化成程式碼,再用程式碼驅動遊戲引擎生成畫面。
隨著Sora的成功,後續會有越來越多的AI大模型接入遊戲引擎,會對已有繪畫大模型造成降維打擊!
至於影片行業、傳統影視業,更是影響深遠。
今年春晚任素汐那首歌【枕著光的她】,有一段陶瓷小人跳舞的鏡頭,是用AI畫的。
而且是用Stable Diffusion + ControlNet + AnimateDiff + LCM + IPAdapter,基於SD1.5。
幸虧今年春節來的早!
要是晚幾天,隨著生成式AI和遊戲引擎技術的迅速叠代成長,甚至連任素汐本人都可以用AI畫出來了!
不過,按照OpenAI的尿性,大概率是不開源的,但在路線圖既定的情況下,其他AI公司迅速跟上並不算難。
壓力最大的可能是Midjourney,當生成式AI+遊戲引擎成為標配,Midjourney轉型難度加大。
可以說,不做AI大模型的電影公司,都得死。