OpenAI空降影片生成模型：一口氣生成60s，風格畫質尺寸靈活客製｜最前線 - 科技

2024-02-16科技

文 | 周鑫雨

編輯 | 蘇建勛

2023年4月，成立於紐約的Runway AI釋出了一段用AI生成的影片：模糊卡頓、物體扭曲，且僅4秒；

四個月後，Runway將文生影片的影片效果拉到了4K的超逼著高度，實作了鏡頭的連貫穩定。而影片的最大長度也從4秒，提升到了18秒——這也是2023年文生影片的「時長天花板」。

然而，就在台北時間2024年2月16日淩晨，「天花板」又被打破——OpenAI又出王炸，釋出了可以生成60秒影片的AI模型Sora。

OpenAI官宣Sora。

同樣在2月16日釋出的谷歌最新多模態模型Gemini Pro 1.5，則被Sora迅速奪走了關註度。

網友為Gemini和Sora制作的梗圖。

根據OpenAI官方釋出的推文和技術報告，Sora能力的革命性可以被提煉為：最長生成60s影片、鏡頭的前後一致性、超逼真。

從官方釋出的影片demo而言，Sora只需要輸入包含「構成元素、環境、行為及發生順序、影片風格」等關鍵因素的Prompt（提示詞），就能生成不同風格的高畫質、連貫，且具有豐富運鏡和轉場的60s級影片。

比如生成包含人物和城市元素的影片：

提示詞：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

Sora生成影片（原影片為60s，文中截取20s，畫質受gif大小限制有所壓縮）。圖源：OpenAI

Sora也能生成動物和自然風光：

提示詞：幾只巨大的毛茸茸的猛獁象踏著白雪皚皚的草地走近，它們長長的毛茸茸的皮毛在風中輕輕飄動，遠處覆蓋著積雪的樹木和雄偉的雪山，午後的陽光下有縷縷雲彩，太陽高高地掛在空中距離產生溫暖的光芒，低相機視角令人驚嘆地捕捉到大型毛茸茸的哺乳動物，具有美麗的攝影和景深。

Sora生成影片（畫質受gif大小限制有所壓縮）。圖源：OpenAI

Sora生成的影片已經能夠達到逼真的效果。不過，用3D和動漫風格生成虛擬場景對Sora而言也不在話下：

提示詞：動畫場景的特寫是一個毛茸茸的小怪物跪在融化的紅蠟燭旁邊。藝術風格是 3D 和現實的，重點是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇，怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種天真和俏皮的感覺，就好像它第一次探索周圍的世界一樣。暖色調和戲劇性燈光的使用進一步增強了影像的舒適氛圍。

Sora生成影片（畫質受gif大小限制有所壓縮）。圖源：OpenAI

突破時長和逼真的瓶頸，

Sora摸著DALL-E過河

在半年前，在保證生成畫質的前提下時長僅僅是突破10秒，對於多數影片模型而言都是難以企及的高度。

這是由於迴圈網絡、生成對抗網絡、Diffusion模型等主流影片建模範式，通常只能學習某一小類的視覺數據、較短的影片或者固定大小的影片。

這意味著，此前主流範式下的影片生成模型對訓練數據有較高的要求，需要將訓練數據處理為具有標準大小、裁剪尺寸的影片。

Sora的技術報告顯示，為了構建Sora，OpenAI創新性地采用了文生圖模型DALL-E 3的相關技術：將Diffusion模型（可以將隨機像素大致轉換為影像）與Transformer神經網絡（支持處理長數據序列）相結合。

這意味著，Sora可以像處理文字和影像數據一樣，對視覺數據進行分塊式地理解分析，不用進行標準化的預先處理。

比如對應大語言模型中將文本分割為最小的處理單位Token，Sora也透過壓縮影片到較低維度，將視覺數據分割為可分塊處理的修補程式（patch）。並且隨著訓練計算量的規模式（Scaling）提升，影片生成質素會顯著提高。

基於基礎計算量生成的樣本效果。圖源：OpenAI

基於4倍計算量生成的樣本效果。圖源：OpenAI

基於16倍計算量生成的樣本效果。圖源：OpenAI

基於原始數據而非標準化處理數據的訓練，不僅可以讓Sora初步擁有理解真實或虛擬世界的能力，還能靈活生成時長不同、分辨率和尺寸各異的影片（目前可生成的尺寸範圍是：寬屏1920x1080p~豎屏1080x1920p），以適應不同場景和器材的使用需求。

Sora生成不同尺寸下的同主題影片。圖源：OpenAI

不過，仍有不少專家以審慎的態度看待這次技術突破。伊利諾大學厄巴納－香檳分校資訊科學教授Ted Underwood在華盛頓郵報的采訪中表示，OpenAI可能會挑選可以展示模型最佳表現的一些影片。

再比如，普林斯頓大學電腦科學教授 Arvind Narayanan在X推文中指出，Sora生成的時尚女子在東京街頭行走的影片中，女子的左右腿交換了位置，背景中的人物在被前進物體短暫遮擋後消失了。

Arvind Narayanan的推文，可仔細觀察原影片14-16秒處的雙腿交換。

OpenAI官方也放出了一些「Sora翻車影片」，展示了Sora在理解復雜場景的物理原理、因果關系、空間細節、時間推移上的弱點。比如，它搞反了人在跑步機上跑步的方向。

Sora生成的影片截圖。提示詞：打印一個人跑步的場景，35 毫米電影菲林。

Sora殺死Runway們，

倫理安全引發大眾擔憂

2022年，TikTok觀看量Top 10的影片平均時長為44.2秒，最長的一個影片長達2分16秒；

廣告分析公司Integral Ad Science的統計數據顯示，流動網絡展示廣告和流動應用的廣告平均時長分別為15.6秒和20.2秒。

這意味著，一旦文生影片模型突破了60s的時長瓶頸、畫質達到商用級別，對於使用者的生產和娛樂方式，都會產生巨大的影響。【馬戲之王】導演Michael Gracey告訴華盛頓郵報：「電影制作者不再需要一個由 100 或 200 名藝術家組成的團隊，在三年內制作他們的動畫長片。這讓我很興奮。」

然而，他依然對AI工具可能會造成的版權爭議、失業問題而感到擔憂：「它（AI）剝奪了其他人的創造力、工作、想法和執行力，卻沒有給予他們應有的榮譽和經濟報酬時，那就不好了。」

由於Sora生成的影片質素遠高於多數影片生成模型，尤其現實風格讓人真假難辨，不少專家也表達了對影片深度偽造（Deepfake）的擔憂。政治競選虛假資訊辨識組織True Media創始人、華盛頓大學教授Oren Etzioni在紐約時報的采訪中表示：「我非常害怕這種事情會影響一場勢均力敵的選舉。」

目前，OpenAI為Sora生成的影片自動添加了浮水印標記，以表明由AI生成。OpenAI創始人兼CEO Sam Altman在X上表示，目前Sora正在展開紅隊測試（Red-Teaming，一種安全評估方法），並只對少數人開放測試。

Sam Altman的推文。

不過，即便尚未正式對公眾開放，Sora的能力已經引起了不少影片模型創業者的恐慌。

「當一個質素更好、時長更長、套用場景更廣泛的影片模型擺在面前，沒有人還想用‘Runway們’。」一名AI創業者告訴36氪，「對模型層創業者來說，當務之急還是趕緊找場景、做套用。」