當前位置: 華文世界 > 科技

OpenAI空降影片生成模型:一口氣生成60s,風格畫質尺寸靈活客製|最前線

2024-02-16科技

文 | 周鑫雨

編輯 | 蘇建勛

2023年4月,成立於紐約的Runway AI釋出了一段用AI生成的影片:模糊卡頓、物體扭曲,且僅4秒;

四個月後,Runway將文生影片的影片效果拉到了4K的超逼著高度,實作了鏡頭的連貫穩定。而影片的最大長度也從4秒,提升到了18秒——這也是2023年文生影片的「時長天花板」。

然而,就在台北時間2024年2月16日淩晨,「天花板」又被打破——OpenAI又出王炸,釋出了可以生成60秒影片的AI模型Sora。

OpenAI官宣Sora。

同樣在2月16日釋出的谷歌最新多模態模型Gemini Pro 1.5,則被Sora迅速奪走了關註度。

網友為Gemini和Sora制作的梗圖。

根據OpenAI官方釋出的推文和技術報告,Sora能力的革命性可以被提煉為:最長生成60s影片、鏡頭的前後一致性、超逼真。

從官方釋出的影片demo而言,Sora只需要輸入包含「構成元素、環境、行為及發生順序、影片風格」等關鍵因素的Prompt(提示詞),就能生成不同風格的高畫質、連貫,且具有豐富運鏡和轉場的60s級影片。

比如生成包含人物和城市元素的影片:

提示詞:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,塗著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

Sora生成影片(原影片為60s,文中截取20s,畫質受gif大小限制有所壓縮)。圖源:OpenAI

Sora也能生成動物和自然風光:

提示詞:幾只巨大的毛茸茸的猛獁象踏著白雪皚皚的草地走近,它們長長的毛茸茸的皮毛在風中輕輕飄動,遠處覆蓋著積雪的樹木和雄偉的雪山,午後的陽光下有縷縷雲彩,太陽高高地掛在空中距離產生溫暖的光芒,低相機視角令人驚嘆地捕捉到大型毛茸茸的哺乳動物,具有美麗的攝影和景深。

Sora生成影片(畫質受gif大小限制有所壓縮)。圖源:OpenAI

Sora生成的影片已經能夠達到逼真的效果。不過,用3D和動漫風格生成虛擬場景對Sora而言也不在話下:

提示詞:動畫場景的特寫是一個毛茸茸的小怪物跪在融化的紅蠟燭旁邊。藝術風格是 3D 和現實的,重點是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇,怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種天真和俏皮的感覺,就好像它第一次探索周圍的世界一樣。暖色調和戲劇性燈光的使用進一步增強了影像的舒適氛圍。

Sora生成影片(畫質受gif大小限制有所壓縮)。圖源:OpenAI

突破時長和逼真的瓶頸,

Sora摸著DALL-E過河

在半年前,在保證生成畫質的前提下時長僅僅是突破10秒,對於多數影片模型而言都是難以企及的高度。

這是由於迴圈網絡、生成對抗網絡、Diffusion模型等主流影片建模範式,通常只能學習某一小類的視覺數據、較短的影片或者固定大小的影片。

這意味著,此前主流範式下的影片生成模型對訓練數據有較高的要求,需要將訓練數據處理為具有標準大小、裁剪尺寸的影片。

Sora的技術報告顯示,為了構建Sora,OpenAI創新性地采用了文生圖模型DALL-E 3的相關技術:將Diffusion模型(可以將隨機像素大致轉換為影像)與Transformer神經網絡(支持處理長數據序列)相結合。

這意味著,Sora可以像處理文字和影像數據一樣,對視覺數據進行分塊式地理解分析,不用進行標準化的預先處理。

比如對應大語言模型中將文本分割為最小的處理單位Token,Sora也透過壓縮影片到較低維度,將視覺數據分割為可分塊處理的修補程式(patch)。並且隨著訓練計算量的規模式(Scaling)提升,影片生成質素會顯著提高。

基於基礎計算量生成的樣本效果。圖源:OpenAI

基於4倍計算量生成的樣本效果。圖源:OpenAI

基於16倍計算量生成的樣本效果。圖源:OpenAI

基於原始數據而非標準化處理數據的訓練,不僅可以讓Sora初步擁有理解真實或虛擬世界的能力,還能靈活生成時長不同、分辨率和尺寸各異的影片(目前可生成的尺寸範圍是:寬屏1920x1080p~豎屏1080x1920p),以適應不同場景和器材的使用需求。

Sora生成不同尺寸下的同主題影片。圖源:OpenAI

不過,仍有不少專家以審慎的態度看待這次技術突破。伊利諾大學厄巴納-香檳分校資訊科學教授Ted Underwood在華盛頓郵報的采訪中表示,OpenAI可能會挑選可以展示模型最佳表現的一些影片。

再比如,普林斯頓大學電腦科學教授 Arvind Narayanan在X推文中指出,Sora生成的時尚女子在東京街頭行走的影片中,女子的左右腿交換了位置,背景中的人物在被前進物體短暫遮擋後消失了。

Arvind Narayanan的推文,可仔細觀察原影片14-16秒處的雙腿交換。

OpenAI官方也放出了一些「Sora翻車影片」,展示了Sora在理解復雜場景的物理原理、因果關系、空間細節、時間推移上的弱點。比如,它搞反了人在跑步機上跑步的方向。

Sora生成的影片截圖。提示詞:打印一個人跑步的場景,35 毫米電影菲林。

Sora殺死Runway們,

倫理安全引發大眾擔憂

2022年,TikTok觀看量Top 10的影片平均時長為44.2秒,最長的一個影片長達2分16秒;

廣告分析公司Integral Ad Science的統計數據顯示,流動網絡展示廣告和流動應用的廣告平均時長分別為15.6秒和20.2秒。

這意味著,一旦文生影片模型突破了60s的時長瓶頸、畫質達到商用級別,對於使用者的生產和娛樂方式,都會產生巨大的影響。【馬戲之王】導演Michael Gracey告訴華盛頓郵報:「電影制作者不再需要一個由 100 或 200 名藝術家組成的團隊,在三年內制作他們的動畫長片。這讓我很興奮。」

然而,他依然對AI工具可能會造成的版權爭議、失業問題而感到擔憂:「它(AI)剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時,那就不好了。」

由於Sora生成的影片質素遠高於多數影片生成模型,尤其現實風格讓人真假難辨,不少專家也表達了對影片深度偽造(Deepfake)的擔憂。政治競選虛假資訊辨識組織True Media創始人、華盛頓大學教授Oren Etzioni在紐約時報的采訪中表示:「我非常害怕這種事情會影響一場勢均力敵的選舉。」

目前,OpenAI為Sora生成的影片自動添加了浮水印標記,以表明由AI生成。OpenAI創始人兼CEO Sam Altman在X上表示,目前Sora正在展開紅隊測試(Red-Teaming,一種安全評估方法),並只對少數人開放測試。

Sam Altman的推文。

不過,即便尚未正式對公眾開放,Sora的能力已經引起了不少影片模型創業者的恐慌。

「當一個質素更好、時長更長、套用場景更廣泛的影片模型擺在面前,沒有人還想用‘Runway們’。」一名AI創業者告訴36氪,「對模型層創業者來說,當務之急還是趕緊找場景、做套用。」