比賽開始了！Sora對手直呼柯曼是魔術師，創意行業最先受沖擊？

2024-02-18科技

AI（人工智能）新銳巨頭OpenAI近日推出文生影片模型Sora，成為了繼聊天機器人ChatGPT之後又一大新爆款。

在Sora官網上，OpenAI寫道：「我們正在教AI理解和模擬運動中的物理世界，目的是訓練模型幫助人們解決需要現實世界互動的問題。」根據OpenAI的介紹，透過「一次性為模型提供多幀的預測」，Sora可以生成長達一分鐘的影片，並能實作單影片的多角度鏡頭切換，還能透過「將影片和影像表現為較小數據單位的集合」來獲得更廣泛的數據，搭建模擬現實世界的逼真模型。

雖然還沒有向公眾開放，由於在AI生成影片時長上成功突破到一分鐘，再加上公開演示影片的高度逼真和高質素，Sora立刻引起了轟動。特斯拉CEO埃隆·馬斯克（Elon Musk）在X（原推特）平台上感嘆「人類願賭服輸（gg humans）」，360集團創始人、董事長兼CEO周鴻祎則預言「AGI（通用人工智能）實作將從10年縮短到1年」。

AI影片生成賽道競爭日漸激烈

毫無疑問，Sora的出現至少讓競爭對手感到了壓力。在Sora釋出後，AI影片初創公司Runway的CEO克里斯托瓦爾·巴倫蘇埃拉（Cristóbal Valenzuela）便在X平台上釋出了兩個詞：「Game On（比賽開始了）。」

AI影片公司Stability AI的CEO埃馬德·莫斯塔克（Emad Mostaque）則在X平台上感慨「柯曼（OpenAI的創始人兼CEO）真是一個魔術師」，並稱Sora可以被視為AI影片的GPT3，將在未來幾年內得到擴充套件、細化、調整和最佳化。

自2022年以來，最早的一批文生影片模型都是由Stability AI、Runway和Pika等小型初創公司開發的，而近幾個月來，科技巨頭們也紛紛宣布將帶著自己的模型進入該領域，例如字節跳動的MagicVideo-V2和谷歌的Lumiere。

谷歌的Lumiere演示片段。來源：Google Research

雖然谷歌和字節跳動釋出的演示影片都展現出了質素的飛躍，但它們都沒能脫離現有文生影片的一般模式，即輸出單一的、通常是靜止視角的短影片片段。相比之下，Sora的宣傳影片包括變換攝影機角度、電影式剪輯和場景變換，而這一切，都是透過單一提示詞生成的。

Sora生成的影片能夠達到更加逼真的效果。來源：Sora

針對Sora如何達成如此驚人的效果，研究者們也展開了分析。在Sora技術報告所引述的32篇論文中，紐約大學助理教授謝賽寧和現任OpenAI工程師的William Peebles在2023年合著的擴散Transformer論文吸引了大家的目光，被視為Sora的研究基礎。謝賽寧也連發多條推文推測，Sora或建立在擴散Transformer模型之上，整個Sora模型可能有30億個參數，數據很可能是Sora成功的最關鍵因素。

雖然OpenAI指出Sora仍存在缺陷，例如難以準確模擬復雜場景的物理特性、無法理解因果關系的具體例項和混淆提示的空間細節，但也在官網上不無驕傲地寫道：「Sora為能夠理解和模擬真實世界的模型提供了基礎，我們相信這一能力將是實作AGI（通用人工智能）的重要裏程碑。」

招商策略研報認為，OpenAI在訓練端與輸入端的創新造就了Sora的成功。雖然OpenAI表示當前Sora仍有弱點，但從當前展示的效果來看，Sora顯著領先於其他文生影片模型，推動AI影片生成進入了一個全新的時代。

有望大幅降低成本，好萊塢行業受沖擊？

影視圈也從未如此直觀地感受到AI帶來的威脅與機遇。例如，專註於早期階段投資的美國舊金山投資人Zak Kukoff在X平台上預測，在五年內，一個不到五人的團隊將能夠利用文生影片模型和非工會勞動力來制作一部票房收入超過5000萬美元的電影。

美國權威電影業界期刊【好萊塢報道】（The Hollywood Reporter）猜測，OpenAI將利用Sora「大規模進軍好萊塢」：「盡管類似的AI影片工具已經存在，OpenAI的系統體現了該技術的快速增長，可能將會取代大量的勞動力。娛樂業正在努力應對AI，而這一技術將進一步被主流所采納。」

早在Sora之前，AI已經開始影響全球影視行業。行業調查公司CVL Economics在今年1月釋出了一項針對300位好萊塢行業領袖的調查，有四分之三的受訪者承認，AI工具促進了公司崗位的削減或整合。據估計，在接下來的三年裏，將有近20.4萬個職位受到AI的不利影響，聲音工程師、配音演員和概念藝術家處於向AI轉變的前沿，視覺效果和其他後期制作工作也很容易受到影響。

有科技媒體指出，在好萊塢，單個場景的制作成本可能高達數百萬美元，Sora可能成為制片人的新選擇，一種更為經濟型的替代品，例如重現滑鐵盧戰役，不需要昂貴的特效或者專門設計拍攝場景，「Sora的魅力在於它能夠培養創造力。導演可以嘗試不同的美學或場景，而無需承擔與傳統制作相關的財務風險。促進了創新，為以前僅限於想象力的敘事和視覺風格開啟了大門……數碼藝術家可以讓技能多元化，但也應該適應這種將永遠改變遊戲規則的新範式。」

不過，由於可能使用受版權保護的內容和生成影片時長較短等問題，AI生成影片工具在影視業的使用依然受到局限。許多藝術家也要求OpenAI公開Sora的訓練數據，懷疑其有使用版權保護內容的嫌疑。曾為多部漫威影片工作過的概念藝術家卡拉·奧爾蒂斯（Karla Ortiz）指出，大模型需要海量的訓練數據來進行學習，隱藏數據來源是一種逃避社會責任的行為。

而在影視業之前，相對較為不看重影片內容的廣告業已經受到了AI生成影片工具的顯著沖擊。據統計，在美國洛杉磯，自2018年以來，商業廣告的拍攝量已經出現持續大幅下降，如果排除因疫情而停止大部份制作的2020年，其在2023年已經降至七年最低點。一旦Sora正式開放使用，想必將會進一步推動廣告業向AI轉型。

是破局者，還是破壞者？

除了版權問題以外，和所有其他AI工具一樣，Sora過於逼真的影片表現也帶來了一些對於偽造和傳播虛假內容的憂慮。

在充斥著虛假資訊的互聯網，深度造假（Deepfake）的道德問題早已成為了關註焦點。就在今年1月，由AI生成的美國知名歌手泰勒·斯威夫特（Taylor Swift）的虛假露骨照片在社交媒體上瘋傳，短時間內瀏覽量飆升至上千萬，一時驚動美國白宮。白宮新聞發言人卡裏娜·讓-皮埃爾（Karine Jean-Pierre）警告稱，AI生成照片的傳播「令人擔憂」。由於來不及刪除這些有害圖片，X平台一度封鎖了對斯威夫特的相關搜尋。

而一旦照片變成影片，人們將更加難以分辨真偽。OpenAI也考慮到了模型安全性方面的潛在風險，稱其計劃與一個專家團隊合作測試最新模型，密切關註錯誤資訊、仇恨內容和偏見等。OpenAI還表示其正在開發幫助檢測誤導性資訊的工具，比如檢測分類器可以判斷影片是何時由Sora生成的。其文本分類器可檢查並拒絕違反使用政策的文本輸入提示，例如極端暴力、性內容、仇恨影像、名人肖像等。

但在Sora被正式公開之前，我們都無從得知這些約束條件的具體效果如何。此外，AI技術的復雜性也意味著需要大量金錢和算力資源投入，可能會將權力進一步集中在少數資本或技術寡頭身上。

不管是好是壞，Sora都標誌著更先進的AI影片浪潮的出現，而這股浪潮或許終將顛覆包括影視、廣告乃至遊戲和藝術在內的整個創意產業。

(本文來自澎湃新聞，更多原創資訊請下載「澎湃新聞」APP)