當前位置：華文世界 > 科技

效果炸裂！OpenAI首個影片生成模型釋出，1分鐘流暢高畫質，網友：整個行業RIP

2024-02-16科技

剛剛，柯曼釋出OpenAI首個影片生成模型Sora。

完美繼承DALL·E 3的畫質和遵循指令能力，能生成長達1分鐘的高畫質影片。

柯曼釋出OpenAI首個影片生成模型

AI想象中的龍年春節，紅旗招展人山人海。

有緊跟舞龍隊伍擡頭好奇官網的兒童，還有不少人掏出手機邊跟邊拍，海量人物角色各有各的行為。

舞龍隊伍

雨後東京街頭，潮濕地面反射霓虹燈光影效果堪比RTX ON。

效果

行駛中的列車窗外偶遇遮擋，車內人物倒影短暫出現非常驚艷。

效果

也可以來一段好萊塢大片質感的電影預告片：

效果

豎屏超近景視角下，這只蜥蜴細節拉滿：

效果

網友直呼game over，工作要丟了：

留言截圖

甚至有人已經開始「悼念」一整個行業：

推文截圖

AI理解運動中的物理世界

OpenAI表示，正在教AI理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現實世界互動的問題

根據文本提示生成影片，僅僅是整個計劃其中的一步。

j截圖

目前Sora已經能生成具有多個角色、包含特定運動的復雜場景，不僅能理解使用者在提示中提出的要求，還了解這些物體在物理世界中的存在方式。

比如一大群紙飛機在樹林中飛過，Sora知道碰撞後會發生什麽，並表現其中的光影變化。

一群紙飛機在茂密的叢林中翩翩起舞，在樹林中穿梭，就像候鳥一樣。

Sora還可以在單個影片中建立多個鏡頭，並依靠對語言的深入理解準確地解釋提示詞，保留角色和視覺風格。

美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天並在附近的攤位購物。絢麗的櫻花花瓣隨著雪花隨風飄揚。

對於Sora當前存在的弱點，OpenAI也不避諱，指出它可能難以準確模擬復雜場景的物理原理，並且可能無法理解因果關系。

例如「五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐」，狼的數量會變化，一些憑空出現或消失。

該模型還可能混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨著時間推移發生的事件，例如遵循特定的相機軌跡。

如提示詞「籃球穿過籃筐然後爆炸」中，籃球沒有正確被籃筐阻擋。

效果

技術方面，目前OpenAI透露的不多，簡單介紹如下：

Sora是一種擴散模型，從雜訊開始，能夠一次生成整個影片或擴充套件影片的長度，

關鍵之處在於一次生成多幀的預測，確保畫面主體即使暫時離開視野也能保持不變。

與GPT模型類似，Sora使用了Transformer架構，有很強的擴充套件性。

在數據方面，OpenAI將影片和影像表示為patch，類似於GPT中的token。

透過這種統一的數據表示方式，可以在比以前更廣泛的視覺數據上訓練模型，涵蓋不同的持續時間、分辨率和長寬比。

Sora建立在過去對DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示詞技術，為視覺訓練數據生成高度描述性的標註，因此能夠更忠實地遵循使用者的文本指令。

除了能夠僅根據文本指令生成影片之外，該模型還能夠獲取現有的靜態影像並從中生成影片，準確地讓影像內容動起來並關註小細節。

該模型還可以獲取現有影片並對其進行擴充套件或填充缺失的幀，請參閱技術論文了解更多資訊（晚些時候釋出）。

Sora 是能夠理解和模擬現實世界的模型的基礎，OpenAI相信這一功能將成為實作AGI的重要裏程碑。

柯曼線上接單

目前已有一些視覺藝術家、設計師和電影制作人（以及OpenAI員工）獲得了Sora存取許可權。

他們開始不斷po出新的作品，柯曼也開始了線上接單模式。

帶上你的提示詞@sama，就有可能收到生成好的影片回復。

j截圖

下面是更多精彩影片欣賞。

一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

電影預告片講述了30歲太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷，藍天、鹽漠，電影風格，35毫米菲林拍攝，色彩鮮艷。

無人機攝影機圍繞著一座美麗的歷史教堂盤旋，這座教堂建在阿馬爾菲海岸的巖石露頭上，檢視展示了歷史悠久、宏偉的建築細節以及分層的路徑和露台，當檢視俯瞰地平線時，可以看到海浪拍打著下面的巖石。意大利阿馬爾菲海岸的沿海水域和丘陵景觀，遠處的幾個人在露台上散步和欣賞壯麗的海景，午後陽光的溫暖光芒給場景營造出一種神奇而浪漫的感覺，景色令人驚嘆用美麗的攝影捕捉。

一只柯基犬在熱帶毛伊島拍攝影片網誌

一只巨大的橙色章魚躺在海底，與沙石地形融為一體。它的觸角散布在身體周圍，雙眼緊閉。不遠處，一只棕色多刺的帝王蟹正從巖石後爬向它，鉗子高舉待擊。畫面以廣角拍攝，展現出海洋的無垠深邃。水清澈見底，陽光透過水面，投下斑斕光影。畫面清晰生動，章魚和蟹清晰可見，而背景稍顯模糊，營造出景深效果。

參考連結：[1]https://openai.com/sora

夢晨西風發自凹非寺量子位 | 公眾號 QbitAI

本文來自微信公眾號「量子位」（ID:QbitAI），作者：關註前沿科技，36氪經授權釋出。

Copyright © 2024 www.aqiusha.com NO.1 華文世界

商務合作：xingwa#jasve.com（傳送郵件請將#換成@）