48個文生影片+技術報告，揭秘OpenAI最強影片GPT

2024-02-16科技

智東西
編譯 | ZeR0
編輯 | 漠影

智東西2月16日訊息，今日淩晨，OpenAI推出其首款文生影片大模型Sora。該模型能根據提示詞生成長達 1分鐘 的影片，或者擴充套件生成的影片使其更長，同時視覺質素相當驚艷。

相比以往的影片模型，Sora的亮點非常明顯，不僅對文本理解更深刻，可以準確地呈現提示詞，而且能在一個生成的影片中建立多個鏡頭，準確地保留角色和視覺風格。

尤其值得一提的是，Sora在細節處理上做得非常出挑，能夠理解復雜場景中不同元素之間的物理內容及其關系，正確呈現它們在物理世界中的存在方式。

除了支持文本指令輸入外，該模型支持生成影像，也支持將現有靜止影像變成影片，能對現有影片進行擴充套件、將兩個影片銜接並填充缺失的幀。

其3D仿真能力非常突出，無論是制作短影片、動畫、電影畫面，還是渲染影片遊戲，Sora都展示出了令人期待的落地前景。

為了全方位展示Sora的水平，OpenAI一口氣放出了48個用Sora直接生成、未經修改、長度不等（9秒~60秒）的影片。下文附有48個影片的完整展示，火眼金睛的讀者朋友們可以研究下這些影片的準確程度，或者從專業性上找找bug。

OpenAI將這個大模型稱作是「能夠理解和模擬現實世界的模型的基礎」，相信其能力「將是實作AGI的重要裏程碑」。其技術報告今日剛剛新鮮出爐：

技術報告指路：https://openai.com/research/video-generation-models-as-world-simulators

一、Sora技術拆解：60秒影片、理解力強大、一次預見多幀

OpenAI首個文生影片大模型Sora是一個在可變持續時間、分辨率、寬高比的影片和影像上聯合訓練的文本條件擴散模型。

與GPT模型類似，Sora使用Transformer架構，擴充套件性很強大，能一次生成時長1分鐘的影片，或者擴充套件生成的影片使其更長。

隨著訓練計算量增加，樣本質素顯著提高。

具體來看，該模型能生成具有多個角色、特定類別的運動以及精確的主題和背景細節的復雜場景。

透過賦予模型一次多幀的預見能力，OpenAI團隊解決了一個具有挑戰性的問題，即確保一個主題即使暫時消失在視野之外也保持不變。

過去的影像和影片生成方法通常是調整大小，裁剪或修剪影片到標準尺寸——例如，4秒影片、256×256分辨率。而OpenAI發現在原始大小的數據上進行訓練提供了一些好處：

（1）采樣的靈活性：Sora可以采樣寬屏1920x1080p影片、垂直1080×1920影片以及介於兩者之間的所有影片。這讓Sora可直接以不同器材的原始寬高比為其建立內容。它還支持在生成全分辨率的內容之前，以較小的尺寸快速建立內容原型——所有內容都使用相同的模型。

（2）改進框架和構圖：OpenAI透過經驗發現，在影片的原始長寬比上進行訓練可以改善構圖和框架。研究團隊將Sora與其模型的一個版本進行比較，該版本將所有訓練影片裁剪為方形。在正方形裁剪（左圖）上訓練的模型有時會生成僅部份顯示主題的影片。相比之下，來自Sora（右圖）的影片有改進的幀。

此外，Sora文生影片大模型具備如下特點：

1、強大的語言理解能力：訓練文本到影片生成系統需要大量帶有相應文本說明的影片。OpenAI將DALL·E 3中介紹的字幕重配技術（Recaptioning）套用到影片中，首先訓練一個高度描述性的字幕模型，然後使用它為其訓練集中的所有影片生成文本字幕。OpenAI發現，對高度描述性的影片字幕進行訓練可提高文本保真度以及影片的整體質素。與DALL·E 3類似，研究團隊還利用GPT將簡短的使用者提示轉換為更長的詳細字幕，並將其發送到影片模型。這使得Sora能準確按照使用者提示生成高質素的影片。

2、支持現有的影像或影片輸入：這種功能使Sora能夠執行廣泛的影像和影片編輯任務——建立完美的迴圈影片、動畫靜態影像、向前或向後擴充套件影片等。比如，基於DALL·E 3影像生成影片，從一個生成的影片片段開始向前/向後擴充套件影片，編輯轉換影片的風格/環境，將兩個輸入影片無縫銜接在一起。

3、影像生成功能：研究團隊透過在一個時間範圍為一幀的空間網格中排列高斯雜訊塊來實作這一點。該模型可以生成可變大小的影像，最高可達2048 × 2048分辨率。

4、新興的仿真能力：OpenAI發現影片模型在大規模訓練時表現出許多有趣的突發能力。這些功能使Sora能夠從現實世界中模擬人、動物和環境的某些方面。Sora可以生成帶有動態攝影機運動的影片。隨著攝影機的移動和旋轉，人物和場景元素在三維空間中始終如一地移動。

Sora經常能夠有效地為短期和長期依賴關系建模，可以在單個樣本中生成同一角色的多個鏡頭，在整個影片中保持其外觀一致。該模型有時可以用簡單的方式模擬影響世界狀態的行為，例如，畫家可以在畫布上留下新的筆觸，隨著時間的推移，或者一個人吃漢堡時留下咬痕。

在模擬數碼世界方面，Sora能夠模擬人工過程，比如影片遊戲，可在高保真度渲染世界及其動態的同時，用基本策略控制【我的世界】中的玩家。

這些功能表明，影片模型的持續擴充套件是發展物理和數碼世界以及生活在其中的物體、動物和人的高效能模擬器的一條有希望的道路。

OpenAI從大語言模型獲得靈感，大語言模型的成功部份歸功於tokens優雅地統一了文本程式碼、數學及各種自然語言的不同模式。Sora研究則考慮到讓視覺數據的生成模型繼承這些優點。

此前視覺patch已經被證明是視覺數據模型的有效表示。OpenAI發現patch是一種高度可延伸且有效的表示形式，可用於在不同類別的影片和影像上訓練生成模型。

OpenAI將影片轉換成patch，訓練了一個降低視覺數據維度的網絡，該網絡將原始影片作為輸入並輸出在時間和空間上壓縮的潛在表示。Sora在這個壓縮的潛在空間中接受訓練並隨後生成影片。 OpenAI還訓練了相應的解碼器模型。

給定一個壓縮的輸入影片，研究團隊提取一系列時空patch，充當Transformer tokens，這種基於patch的表示使得Sora能對不同時長、寬高比、分辨率的影片和影像進行訓練。在推理時，可透過在適當大小的網格中排列隨機初始化的patches來控制生成影片的大小。

Sora是一個擴散模型；輸入一個雜訊patch，它被訓練來預測原始的「幹凈」patch。在這項工作中，OpenAI發現擴散Transformer可以作為影片模型有效擴充套件。

二、48個影片Demo：動漫電影、逼真自然、魔幻大片

OpenAI一共放出了48個影片來展示Sora模型的強大之處。受站點上傳限制，下文主要以動圖形式來簡要呈現這些生成影片的部份視覺效果。

提示詞1：一個時髦的女人走在東京的街道上，到處都是溫暖的霓虹燈和生動的城市標誌。她穿著黑色皮夾克、紅色長裙、黑色靴子，拿著一個黑色錢包。她戴著太陽鏡，塗著紅色的口紅。她走起路來自信而隨意。街道是潮濕和反光的，創造了一個彩色燈光的鏡子效果。許多行人走來走去。

提示詞2：幾只巨大的長毛猛獁象穿過一片白雪覆蓋的草地，它們長長的毛茸茸的皮毛在風中輕拂，遠處白雪覆蓋的樹木和戲劇性的雪山，午後的光線與縷縷的雲和遠處的太陽創造了溫暖的光芒，低相機的視角是驚人的，捕捉到了美麗的攝影，景深的大型毛茸茸的哺乳動物。

提示詞3：這是一部電影預告片，講述了30歲的太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷，藍天，鹽沙漠，電影風格，用35毫米菲林拍攝，色彩鮮艷。

提示詞4：無人機拍攝的海浪沖擊著大蘇爾加雷角海灘上崎嶇的懸崖。藍色的海水拍打著白色的波浪，夕陽的金色光芒照亮了巖石海岸。遠處有一座小島，島上有一座燈塔，懸崖邊上長滿了綠色的灌木叢。從公路到海灘的陡峭落差是一個戲劇性的壯舉，懸崖的邊緣突出在海面上。這是一幅捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀的景色。

提示詞5：動畫場景特寫了一個毛茸茸的矮個子怪物跪在融化的紅燭旁。美術風格是3D和現實的，重點是照明和紋理。這幅畫的氣氛是一種驚奇和好奇，因為怪物睜大眼睛，張開嘴巴凝視著火焰。它的姿勢和表情傳達了一種天真和頑皮的感覺，好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進一步增強了影像的舒適氛圍。

提示詞6：一個華麗渲染的珊瑚礁紙工藝品世界，到處都是五顏六色的魚和海洋生物。

提示詞7：這個維多利亞冠鴿的特寫展示了它引人註目的藍色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的，而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜，給人一種帝王和威嚴的印象。背景是模糊的，吸引人們註意到這只鳥引人註目的外表。

提示詞8：兩艘海盜船在一杯咖啡中航行時相互爭鬥的逼真特寫影片。

提示詞9：一個20多歲的年輕人坐在天空的一片雲上讀書。

提示詞10：淘金熱時期加州的歷史鏡頭

提示詞11：一個玻璃球的近景，裏面有一個禪宗花園。球體中有一個小矮人正在耙花園，並在沙子上創造圖案。

提示詞12：一個24歲的女人眨著眼睛的極端特寫，站在馬拉喀什的神奇時刻，電影菲林拍攝，70mm，景深，生動的色彩，電影感。

提示詞13：一只卡通袋鼠跳迪斯科。

提示詞14：一個美麗的自制影片，展示了2056年尼日利亞拉各斯的人們。用手機網絡攝影機拍攝的。

提示詞15：一個培養皿，裏面生長著竹林，小熊貓在裏面跑來跑去。

提示詞16：攝影機圍繞著一大堆老式電視旋轉，這些電視播放著不同的節目——20世紀50年代的科幻電影、恐怖電影、新聞、靜態、70年代的情景喜劇等，背景設在紐約博物館的一個大型畫廊裏。

提示詞17：一個小的、圓的、毛茸茸的、有一雙大而富有表現力的眼睛的生物探索了一個充滿活力的魔法森林的3D動畫。這種動物是兔子和松鼠的異想天開的混合體，有著柔軟的藍色皮毛和濃密的條紋尾巴。它沿著波光粼粼的小溪跳躍，驚奇地睜大了眼睛。森林裏充滿了神奇的元素：發光和變色的花朵，紫色和銀色葉子的樹木，以及像螢火蟲一樣的小浮動燈。這只生物停下來和一群在蘑菇圈周圍跳舞的小仙女嬉戲。這只生物敬畏地仰望著一棵巨大的、發光的樹，這棵樹似乎是森林的中心。

提示詞18：攝影機跟在一輛黑色車頂架的白色復古SUV後面，它在陡峭的山坡上沿著松樹環繞的陡峭土路加速行駛，灰塵從輪胎上揚起，陽光照在越野車上，在土路上加速行駛，在現場投下溫暖的光芒。這條土路彎彎曲曲地延伸到遠處，看不到其他的汽車或車輛。道路兩旁的樹木都是紅杉，點綴著一片片綠色植物。從後面看到的汽車跟隨曲線輕松，使它看起來好像是在崎嶇不平的地形上行駛。土路本身被陡峭的丘陵和山脈包圍，上面是清澈的藍天和縷縷的雲。

提示詞19：火車在東京郊區行駛時，車窗上的倒影。

提示詞20：一架無人機攝影機環繞著一座美麗的歷史悠久的教堂，這座教堂建在阿馬爾菲海岸的巖石上，這張照片展示了歷史和宏偉的建築細節，分層的小路和露台，海浪撞擊著下面的巖石，俯瞰著意大利阿馬爾菲海岸的海岸水域和丘陵景觀，遠處的幾個人在露台上散步，欣賞著壯觀的海景。下午溫暖的陽光為現場創造了一種神奇而浪漫的感覺，美麗的攝影捕捉到了令人驚嘆的景色。

提示詞21：一只巨大的橙色章魚在海底休息，與沙質和巖石地形融為一體。它的觸手在身體周圍展開，眼睛是閉著的。章魚沒有意識到一只帝王蟹正從巖石後面向它爬來，它的爪子擡起，準備攻擊。這種螃蟹是棕色的、多刺的，有長腿和觸角。這個場景是從廣角拍攝的，展示了海洋的廣闊和深度。海水清澈湛藍，陽光透過來。鏡頭銳利，動態範圍大。章魚和螃蟹是焦點，而背景稍微模糊，創造了景深效果。

提示詞22：一群紙飛機在茂密的叢林中飛舞，像候鳥一樣在樹木之間穿梭。

提示詞23：一只貓叫醒了正在睡覺的主人，要求吃早飯。主人試圖忽略貓，但貓嘗試了新的策略，最後主人從枕頭下拿出了一個秘密的零食，讓貓多待一會兒。

提示詞24：基納巴坦幹河上的婆羅洲野生動物。

提示詞25：有中國龍的中國農歷新年慶祝影片。

提示詞26：參觀藝術畫廊，欣賞許多風格各異的精美藝術品。

提示詞27：美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天，在附近的攤位上購物。絢麗的櫻花花瓣隨著雪花在風中飛舞。

提示詞28：這是一幅定格動畫，描繪了一朵花從郊區房子的窗台上長出來。

提示詞29：賽博龐克設定的機器人生活故事。

提示詞30：極致特寫一個60歲、頭發胡子花白的男人，在深度思考宇宙歷史，他坐在一家巴黎的咖啡館，穿著一件羊毛外套西裝外套和一件襯衫，戴著一件棕色的貝雷帽、眼鏡，有一個非常專業的外表，結束時他有了一個微妙的、封閉式的笑容，好像找到了答案，神秘生活，燈光非常電影化，金色燈光和巴黎的街道和城市作為背景，景深，電影感，35mm菲林。

提示詞31：一個美麗的剪影動畫展示了一只狼對著月亮嚎叫，感到孤獨，直到它找到了它的族群。

提示詞32：紐約市像被淹沒的亞特蘭蒂斯。魚、鯨魚、海龜和鯊魚遊過紐約的街道。

提示詞33：一窩金毛獵犬小狗在雪地裏玩耍。他們的頭從雪中探出頭來，身上覆蓋著雪。

提示詞34：一個人跑步的步印場景，電影菲林，35mm拍攝。

提示詞35：五只小灰狼在一條偏僻的礫石路上嬉戲追逐，周圍長滿了草。幼崽們又跑又跳，互相追逐，互相撕咬、玩耍。

提示詞36：籃球穿過籃筐然後爆炸。

提示詞37：考古學家在沙漠中發現了一把普通的塑膠椅子，他們小心翼翼地挖掘並撣去了上面的灰塵。

提示詞38：一位頭發梳得整整齊齊的白發老奶奶站在一張木制餐桌前，身後是一個色彩斑斕的生日蛋糕，上面插著無數的蠟燭，她的眼睛裏閃爍著幸福的光芒，臉上流露出一種純粹的快樂和幸福。她身體前傾，輕輕地吹滅了蠟燭，蛋糕上有粉紅色的糖霜和糖屑，蠟燭也不再閃爍，老奶奶穿著一件淺藍色的襯衫，上面裝飾著花卉圖案，可以看到幾個快樂的朋友和家人坐在桌子旁慶祝，背景虛化。這個場景拍得很漂亮，像電影一樣，展示了老奶奶和餐廳的3/4檢視。暖色調和柔和的燈光改善了心情。

提示詞39：鏡頭直接對著意大利布拉諾五顏六色的建築。一只可愛的斑點狗從一樓的窗戶往外看。許多人沿著建築物前的運河街道散步或騎單車。

提示詞40：一只可愛快樂的水獺穿著黃色救生衣自信地站在沖浪板上，沿著綠松石般的熱帶水域騎行，附近是郁郁蔥蔥的熱帶島嶼，3D數碼渲染藝術風格。

提示詞41：這張變色龍的特寫照片展示了它驚人的變色能力。背景是模糊的，吸引人們註意到動物引人註目的外表。

提示詞42：一只柯基在熱帶毛伊島拍攝影片。

提示詞43：一只白橙相間的虎斑貓歡快地在茂密的花園裏竄來竄去，好像在追逐什麽東西。它的眼睛睜得大大的，歡快地向前跑著，一邊走一邊掃視著樹枝、花朵和樹葉。這條小路很窄，因為它在所有的植物之間穿行。這個場景是從地面的角度拍攝的，緊跟在貓後面，給人一個低而親密的視角。影像是電影般的暖色調和顆粒紋理。樹葉和植物之間分散的日光形成了溫暖的對比，突出了貓的橙色皮毛。這張照片清晰銳利，景深淺。

提示詞44：藍色聖托裏尼鳥瞰圖，展示了白色基克拉迪建築和藍色圓頂的驚人建築。火山口的景色令人嘆為觀止，燈光營造出一種美麗、寧靜的氛圍。

提示詞45：工人、器材和重型機械密集的建築工地的傾斜。

提示詞46：一個巨大的、高聳的雲在一個人的形狀在地球上隱約出現。雲人把閃電射向地面。

提示詞47：一只薩摩耶犬和一只金毛獵犬在夜晚的霓虹燈城市裏嬉戲。附近建築物發出的霓虹燈在它們的皮毛上閃閃發光。

提示詞48：Glenfinnan高架橋是英國蘇格蘭的一座歷史悠久的鐵路橋，橫跨馬萊格鎮和威廉堡之間的西部高地線。一列蒸汽火車駛離大橋，在拱形高架橋上行駛，這是一幅令人驚嘆的景象。風景點綴著郁郁蔥蔥的綠色植物和巖石山脈，為火車之旅創造了風景如畫的背景。天空湛藍，陽光明媚，這是個探索這個雄偉景點的美好日子。

三、不足：難以模擬復雜場景，混淆提示詞的空間細節

OpenAI坦言，當前Sora目前存在許多局限性，可能難以準確地模擬復雜場景的物理內容，比如玻璃破碎；也可能無法理解因果關系的具體例項。例如，一個人咬了一口曲奇，但之後曲奇上可能沒有咬痕。

該模型還可能混淆提示的空間細節，例如，混淆左和右，並且可能難以精確描述隨時間發生的事件，例如跟隨特定的攝影機軌跡。

OpenAI強調說，在將Sora套用於OpenAI的產品之前，他們將采取一些重要的安全措施，包括與紅隊專家合作進行對抗性測試、構建檢測分類器等工具來幫助檢測誤導性內容、計劃在未來包含C2PA後設資料等。

除了開發新技術為部署做準備外，OpenAI還利用了其為使用DALL·E 3的產品構建的現有安全方法，這些方法也適用於Sora。

Sora文生影片大模型的研究由Bill Peebles、Tim Brooks領導，系統領導者是Connor Holmes。以下人員均參與了此研究的貢獻。