歡迎來到AI的真實世界

2024-02-17科技

20多年前，我逃課去看【黑客帝國】。

墨菲斯說：歡迎來到真實世界。

一下子夢醒了，回到教室的時候，老師在講國有企業改制過程中的頂層設計問題。

你看到的，就是真實嗎？

時光荏苒，終於忘記了很多人，終於忘記了很多事。

一覺醒來，AI圈裏沸騰了，大家發現現實不存在了。

OpenAI釋出影片大模型的預告，能夠生成60秒完整影片。

這個大模型叫Sora。

作為一個AI工具的重度使用者，平均每天使用生成式AI和AI繪畫工具超過2小時。

對Sora最感興趣的一點，是它生成的畫面不崩、不閃。

事實上，現階段開源AI繪畫工具也能生成影片，但大多數在4秒之內，而且最大的缺點是臉崩和閃爍。

臉崩的原因是很多大模型很難處理大幅畫面的時候的面部細節，閃爍的原因是現階段大模型都是逐幀生成畫面，然後拼成影片，每一幀的畫面細節有變化的時候就會閃爍。

從這一點上來說，在Sora面前，目前所有的影片大模型都得跪下。

有分析人士認為，Sora使用了遊戲引擎。我也認同這一觀點，使用遊戲引擎能夠巧妙的繞開逐幀生成畫面再拼接的弊端。

輝達高級科學家Jim Fan對Sora發表了一些自己的觀點：

Sora是一個數據驅動的物理引擎。它是對許多世界的模擬，無論是真實的，還是虛構的。該模擬器透過去噪和梯度學習方式，學習了復雜的渲染、「直觀的」物理、長期推理和語意理解。

如果Sora使用虛幻引擎5接受過大量合成數據的訓練，我不會感到驚訝的。必須如此！

在ChatGPT3.5推出之前，ChatGPT釋出了幾個版本，雖然表現驚艷，但能力有限，也是不溫不火。3.5一炮走紅後，再接再厲推出了付費的4.0版本。

不管多麽驚人，ChatGPT至少是有「前奏」的，它的基本原理和執行邏輯，以及進展，對AI感興趣的人，都是有了解的。

Sora的出現有點措手不及，就在昨天的時候，大家還在為AI影片去閃問題絞盡腦汁，畢竟大家都看過基於現有技術水平的論文，知道瓶頸在哪裏，知道上限在哪裏。Sora就像跳出了人類科技，突然到來的天頂星科技。

但是！

如果使用了遊戲引擎（比如虛幻5）的話，這一切又都可以理解了。只能說之前的AI影片走的是AI繪畫的老路，想當然的認為影片=繪畫逐幀疊加，Sora巧妙的換了個路線，依然是ChatGPT的邏輯，用數據去驅動遊戲引擎，再由遊戲引擎生成畫面。

這樣的技術並沒有超越現有科技水平，只是骨骼驚奇，之前確實沒有人想象到。

ChatGPT 先把接收到的文字轉化成程式碼，再用程式碼驅動遊戲引擎生成畫面。

隨著Sora的成功，後續會有越來越多的AI大模型接入遊戲引擎，會對已有繪畫大模型造成降維打擊！

至於影片行業、傳統影視業，更是影響深遠。

今年春晚任素汐那首歌【枕著光的她】，有一段陶瓷小人跳舞的鏡頭，是用AI畫的。

而且是用Stable Diffusion + ControlNet + AnimateDiff + LCM + IPAdapter，基於SD1.5。

幸虧今年春節來的早！

要是晚幾天，隨著生成式AI和遊戲引擎技術的迅速叠代成長，甚至連任素汐本人都可以用AI畫出來了！

不過，按照OpenAI的尿性，大概率是不開源的，但在路線圖既定的情況下，其他AI公司迅速跟上並不算難。

壓力最大的可能是Midjourney，當生成式AI+遊戲引擎成為標配，Midjourney轉型難度加大。

可以說，不做AI大模型的電影公司，都得死。