刷屏科技圈的「視訊生成」，到底有多顛覆？

2024-02-19科技

2 月 16 日淩晨，OpenAI 在 AI 生成視訊領域扔出一枚「王炸」，釋出了第一個文生視訊大模型 Sora。這一模型可以根據提示詞生成長達一分鐘的高畫質視訊。

在 OpenAI 官網分享的演示視訊中，Sora 可以直接輸出有多個角色、多種場景和運鏡的畫面。比如這個好萊塢大片質感的電影預告片：

這對比一年前 AI 生成的視訊，兩者簡直是天差地別，就長度方面就「碾壓」了行業目前大概只有平均「4s」的視訊生成長度。

不少網友看完後，直呼：這不得整個行業消亡，要失業了！

也有人有個大膽的想法，但是老狐告訴大家，不要有這個想法，這個功能實作不了！因為 OpenAI 在文件裏強調了生成內容的安全性。

今天就跟著老狐一起來看看 Sora 優勢是什麽？還存在什麽不足？怎麽才能用上它？

Sora 優勢是什麽？

在 AI 行業，根據文本自動生成視訊，不算新鮮事。

但是，Sora 的問世，之所以被稱為「王炸」，主要實作了以下幾點突破：

1. 生成高品質的長視訊內容

正如前文所提到的，Sora 能夠生成長達 1 分鐘的超長視訊，相比之下，Runway-gen2 的 18 秒和 Pika 的 3 秒，真的是按在地上摩擦。

比如上面這段生成的視訊，不僅主體連貫穩定，還有多鏡頭，包括從大模組屋慢慢切入到對女士的臉部表情的特寫，以及潮濕的街道地面反射霓虹燈的光影效果。除了腿部切換不自然，幾乎可以以假亂真。這 1 分鐘一鏡到底，可以說這表現力比有些演員都強。

再說到 Sora 創作的視訊品質，無論是高畫質度還是還原度，都是可圈可點的。比如下面這個視訊中，行駛中的列車窗上的影像顯示十分細節，此外偶遇遮擋，車內人物倒影之後也能短暫出現。

又比如人物的眼睛，神情動態之難，往往成為 AI 創作的壁壘。

但就上面 Sora 生成的視訊來看，可以說細節滿滿，幾乎看不出什麽破綻。這樣的視訊，哪怕是頂級動畫制作公司可能都需要數日時間，而 Sora 只需要幾分鐘搞定。

2. 理解長文本能力

Sora 不僅完美繼承 DALL·E 3 的畫質和遵循指令能力，還能根據詳細的文本指令生成具有詳盡細節的視訊內容。

要知道以往的 AI 視訊生成，只能一板一眼地照本宣科轉譯提供的文案，而 Sora 已經開始理解文案，並基於文案自己進行發揮和拓展。

如上方 Sora 以「色彩繽紛的魚類和海洋生物充斥的，由紙藝精心構建的珊瑚礁世界」為主題的視訊中， Sora 透過其攝影角度和拍攝時機，成功地推進了故事的發展。視訊中實際上發生了多次鏡頭轉換，這些沒有特別指令它這麽做，它卻能自動完成。

3. 創新視訊生成模式

以往的 AI 生成視訊都是文本生成視訊，但 Sora 還能接受其他型別的輸入提示。比如，先給 Sora 一個 Dall E 生成的小狗照片，它就能讓小狗動起來。

此外，Sora 還能在時間維度上實作向前或向後的無限擴充套件，也就是說給 Sora 一段視訊，它可以自動生成前面或後面的視訊。

比如，上面這三個視訊，給了它一個結尾讓 Sora 生成開頭，可以看到每個開頭都不一樣，但是結尾最終都是一樣的。

不知道多少小夥伴和老狐一樣曾經幻想過一鍵切換視訊背景，這不 Sora 就幫忙實作了。它可以參考原視訊，把視訊中的一些畫面生成出你想要的內容，比如說是更換環境啊，像森林、水下，甚至整個場景主題。

令人眼前一亮的是，Sora 的視訊拼接功能，你可以把多個視訊給 Sora 參考，讓它將多個毫無關系的畫面組合到一起。可以說銜接還是比較絲滑的。

4. 始終保持 3D 一致性

用過其他視訊生成工具的朋友肯定知道，我們為了盡量讓視訊畫面不分，就要減少鏡頭的移動和旋轉。

不過使用 Sora 我們可以不用擔心這個問題，因為它生成的人物和場景元素在三維空間中的位置關系能夠保持一致的運動，都將持續保持一致性。此外，人物、動物和物體即使在被遮擋或離開畫面後，仍能被準確地保存和呈現。

5. 與世界互動，畫面有物理互動反饋

老狐覺得這一點或許是 Sora 最可怕的功能。現今的 Sora 能夠模擬一些對世界狀態有簡單影響的行為。例如，畫家在畫布上留下新的筆觸，這些筆觸會隨時間推移而持續存在。

綜上看來，Sora 著實是對之前的 AI 視訊生成系統的前輩們來了一波降維打擊。

Sora 目前的不足

當然也並不是說 Sora 十分完美，目前看來還存在諸多不足。 一是該模型混淆提示的空間細節 ，並且難以準確的描述復雜場景中的物理現象。

比如這個視訊老人吹蠟燭前後火苗居然沒有絲毫的變化，不合常理。

二是無法理解一個事例中包含的因果關系 。

比如酒杯摔碎，但是液體的流動和玻璃的破裂關系，不合常理。

三是 Sora 難以精確的描述時間發生的事件 。

例如「五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐」，狼的數量會變化，一些憑空出現或消失。

怎麽樣才能用上它？

那麽，大家最關心的問題來了，我們普通大眾現在能使用 Sora 麽？

答案是：不能。

目前 Sora 還未對公眾開放，OpenAl 表示目前沒有計劃向公眾釋出它，正與與第三方安全測試人員共享該模型。

所以說，目前還只有一些安全測試人員以及一些精選的視訊制作者和藝術家獲得了 Sora 存取許可權。

如果你實在想嘗試一下 Sora，OpenAI CEO 阿特曼在 X（以前的推特）也發出了一條幫忙生成視訊的貼文，只需要去下方復指示詞就行。

大佬們如何看 Sora？

最後再來看看各位技術大牛和內容行業從業者如何評價 Sora？

360 集團創始人、董事長周鴻祎認為 Sora 意味著AGI實作將從 10 年縮短到 1 年！此外周鴻祎還表示，Sora 對短視訊行業有巨大的顛覆，特別是創作力工具。

輝達人工智慧研究院 Jim Fan 認為我們不能忽略 Sora 背後，「世界模型」更進一步，AI 已經可以讀懂物理規律。

馬斯克評 OpenAI 視訊模型：「AI 增強的人類將在未來幾年裏創造出最好的作品。」

最後，對老狐這種內容創作者來說，僅透過輸入文本，就能生成高品質的視訊，這不僅可以大幅減少制作時間，還能激發更多的創意靈感，已經在期待能夠親自體驗 Sora 帶來的創新魅力了。

對於 OpenAI 釋出第一個視訊生成模型 Sora，你怎麽看?歡迎評論區一起互動交流。

參考資料：

量子位、騰訊科技、新智元、X、OpenAI 官網等其他網路平台

編輯：不吃麥芽糖