當前位置: 華文世界 > 科技

以假亂真!文字直接生成視訊,AI 視訊工具 Sora 是怎麽做到的?

2024-02-21科技

2024年2月16日,Open AI在X(原 Twitter)上釋出了一條訊息,隆重介紹了自己的新文本轉視訊模型——Sora。

這個模型可以生成最長60秒的視訊,並且在這個過程中,還能夠自己切換鏡頭,甚至給出特寫。

一位時尚的女士走在亮著霓虹燈和廣告牌的東京街頭。她穿著黑色皮夾克、紅色長裙和黑色靴子,手提一只黑色包包。她戴著太陽鏡,塗著紅色口紅。她走路既自信又隨意。街道潮濕,地面上的水能夠像鏡面一樣反射色彩斑斕的燈光,路上有很多行人來來往往。

一段3D動畫,展現一種又小又圓的毛茸茸生物在一個充滿活力的、被魔法環繞的森林中探險。這種生物是兔子和松鼠的混合體,擁有柔軟的藍色皮毛和一條蓬松的帶有條紋的尾巴。它沿著一條閃閃發光的小溪跳躍,眼睛充滿了好奇。森林裏充滿了魔法元素:有發光並能變換顏色的花朵,有紫色和銀色葉子的樹木,以及有類似螢火蟲的漂浮的光點。這個生物最終停下來與一群圍繞著蘑菇跳舞的小仙子玩耍。這個生物擡頭敬畏地看著一棵巨大發光樹木,這棵樹似乎是森林的心臟。

乍一看這些視訊,你可能會以為它們是專業拍攝團隊或者是動畫公司制作的視訊短片。在OpenAI的社群中,也不乏同樣感受的網友評論稱擔心Sora會搶走動畫師的飯碗。

圖片為機器轉譯後截取自:community.openai.com

還有一些人擔心這樣的技術會不會被用來偽造視訊,甚至被用來在法庭上作偽證。

圖片為機器轉譯後截取自:X

那Sora是如何生成這樣的視訊的?它真的無所不能,會搶走人類飯碗嗎?

Sora怎麽生成視訊?

從2022年下半年開始,Midjourney、Stable Diffusion之類的套用已經可以根據文本提示詞生成對應的圖片了。在2023年9月,GPT 4.0和DALLE 3結合,也讓我們能夠用聊天化的方式生成、修改圖片。

AI生成視訊也不是什麽新鮮事了。在這次的Sora釋出之前,也已經有一些視訊生成AI,比如Pika、Stable video、RunwayML等等。但與Sora相比,其他模型生成視訊的時長都比較短,而且在攝影機的運動、鏡頭切換等方面也要弱很多。

那麽,Sora又是如何生成視訊的呢?

Open AI釋出了一份Sora的技術報告,在報告中提到「Sora是一個擴散模型」。

Sora是一個擴散模型,圖片來源:Open AI官網

擴散模型本身很復雜,我們不去講具體的細節,僅僅透過一個簡單的例子,大致理解擴散模型的思路。

假如我們現在有一張狗狗的照片,我們可以一步步給這張照片增加噪點,讓它變得越來越模糊,最終會變成一堆雜亂的噪點。

添加雜訊與去除雜訊,圖片來源:參考資料[3]

假如把這個過程倒過來,對於一堆雜亂無章的噪點,我們同樣可以一步步去除噪點,把它還原成目標圖片,擴散模型的關鍵就是學會逆向去除噪點。

當然了,擴散模型不僅可以用來生成圖片,還可以用來生成視訊。比如,在Sora的技術報告中提到了,Open AI對視訊數據進行了一些轉換處理,讓視訊數據可以直接用來訓練模型,從而讓Sora能夠直接根據提示詞生成視訊。

Sora對視訊數據進行轉換處理,圖片來源:Open AI官網

Sora強大的視訊創作能力

按照Open AI的說法,Sora「繼承」了Open AI對文本的理解能力,能夠根據提示詞生成出高品質的圖片和視訊,並且能夠對視訊進行向前或者向後的拓展。比如,可以基於同一個視訊開頭繼續拓展,延伸出不一樣的結尾。或者是從不同的開頭引入,最終匯聚到同一個結尾。

這三個視訊開頭最終都會走向同一個結尾,圖片截取自:Open AI官網

另外,Sora不僅可以根據文本生成視訊,也可以直接輸入圖片或者視訊,對圖片和視訊進行編輯調整。

比如可以將這輛行駛在普通道路上的汽車變得更「賽博龐克」一些。

圖片截取自:Open AI官網

另外,Sora也表現出了一些之前未曾想到的本領,比如它可以跟隨著物件移動鏡頭,並且在移動鏡頭轉換角度的時候,依然能保持周圍的景象的合理、完整。

「強大的Sora」仍有一些缺陷

雖然Sora展現出了強大的能力,但現階段它還不夠完美。

並不是每一次Sora都能生成出令人滿意的視訊。【麻省理工科技評論(MIT Technology Review)】主筆Will Douglas Heaven寫道:「Sora釋出出來的視訊已經是從大量的成果中挑選出的佼佼者了。」但即便是這些「經過挑選的佼佼者」也不完美。

在Sora的技術報告中也承認,現階段Sora生成的視訊存在一些缺陷。比如,下面這個「考古工作者們挖掘出一個塑膠椅」的視訊片段裏,這個塑膠椅顯然有點不遵守客觀的物理規律。

另外,下面這個玻璃杯破碎的過程也不那麽「科學」——在杯子破裂之前,杯子裏的液體就已經流出來了。

所以,Sora還有很多需要完善的地方。但毫無疑問,目前Sora展現出來的能力已經說明了,這是一條非常有前景的道路。

Sora安全嗎?會取代人類嗎?

這幾天,Sora生成的視訊刷爆了許多人的朋友圈,人們除了感嘆Sora的厲害,同樣也展現出了擔憂,這些擔憂集中在兩個方面。

第一個擔憂是:Sora生成視訊的能力實在是太厲害了,如果這樣的技術被用來造假,豈不是太可怕了?未來我們怎麽知道看到的視訊是真的還是假的?

而另一個擔憂主要來自視訊行業的從業者,如果Sora這樣的模型普及開來,視訊行業從業者是不是都要丟了飯碗?

先說說安全問題。其實,Open AI也考慮到了Sora可能帶來的安全問題。目前,Sora僅對少數人開放,在確保它不會被用來做壞事之前,Sora是不會向大眾開放的。

那Sora是否會代替人類視訊工作者?

可以肯定的是,Sora的出現可能會威脅一些動畫素材的制作者。

比如,今年1月,【好萊塢報道】進行了一項針對300名娛樂行業領導者的調查,有四分之三的受訪者表示AI會減少未來的工作崗位,未來3年內大約會有20多萬個職位受到影響。而Sora優異的表現會加重這一影響。

但換一個角度想,每一次新興技術的出現在帶來威脅的同時也會帶來新的機會。

包括Sora在內的視訊生成AI只是一個工具,視訊的創意來源還是需要人類提供。Sora或許能夠幫助人類更高效地生產視訊,同時,也讓每一個普通人都有機會制作自己的創意視訊。

參考文獻

[1]https://openai.com/research/video-generation-models-as-world-simulators

[2]https://openai.com/Sora
[3]https://scholar.harvard.edu/binxuw/ classes/machine-learning-scratch/materials/foundation-diffusion-generative-models

[4]https://www.hollywoodreporter.com/business/business-news/ai-hollywood-workers-job-cuts-1235811009/

策劃制作

本文為科普中國-星空計劃作品

出品|中國科協科普部

監制|中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

作者丨小瑋 科普創作者

稽核丨 秦曾昌 北京航空航天大學 自動化科學與電氣工程學院 副教授

策劃丨徐來