加入文生視訊戰局！OpenAI將Sora視作「世界模擬器」

2024-02-16科技

台北時間2月16日，OpenAI CEO 山姆·奧爾特曼（Sam Altman）在公布刷屏業界的文生視訊產品Sora後，在社交平台X上發文稱：「OpenAI所有關鍵資源均已到位，專註於打造AGI（通用人工智慧），你或許應該考慮加入我們。」

今日OpenAI在Runway、Pika、谷歌、 Meta之後，正式加入AI 視訊生成領域的競爭，推出AI視訊生成產品Sora。OpenAI官方介紹稱：如果給定一段簡短或詳細的描述或一張靜態圖片，Sora 就能生成類似電影的 1080P場景，包含多個角色、不同型別的動作和背景細節。1080P是一種視訊顯示格式，是目前美國電影電視工程師協會（SMPTE）制定的最高等級高畫質數位電視的格式標準。

OpenAI官方表示：「Sora是能夠理解和模擬現實世界的模型的基礎，相信這一功能將成為實作AGI的重要裏程碑。」

今日，OpenAI釋出了基於Sora生成的60秒視訊效果，提示詞為：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上，她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

需註意的是，該60秒視訊並非一鏡到底，而是在第37秒切換特寫鏡頭。

另外，截至發稿，奧爾特曼連發9條根據網友提示詞生成的視訊，包括不同動物在海上進行自由車比賽、釋出自制面疙瘩烹飪教學視訊的祖母、兩只金毛犬在山頂做播客、日落分時火星上進行的一場無人機競賽等。但這些視訊時長為9秒至17秒不等。

技術層面，Sora采用擴散模型（diffusion probabilistic models）技術，基於Transformer 架構，但為了解決Transformer 架構核心元件註意力機制的長文本、高分辨率影像處理等問題，擴散模型用可延伸性更強的狀態空間模型（SSM）主幹替代了傳統架構中的註意力機制，可以使用更少的算力，生成高分辨率影像。此前Midjourney與Stable Diffusion 的影像與視訊生成器同樣基於擴散模型。

同時，Sora也存在一定的技術不成熟之處。OpenAI表示，Sora可能難以準確模擬復雜場景的物理原理，可能無法理解因果關系，可能混淆提示的空間細節，可能難以精確描述隨著時間推移發生的事件，如遵循特定的相機軌跡等。

中科深智創始人兼CEO成維忠對第一財經記者表示，Sora目前還存在因果關系推理問題，但這個問題不是Sora自身的問題，而是目前所有類似模型均存在的問題——文生視訊過程中，模型搞不清楚人與環境的關系，搞不清楚前後邏輯關系等情況，該問題會導致模型在實際套用的時候，達不到使用者設想的完美程度，但從個人工具的角度來說，Sora已經比此前行業內推出的文生視訊好很多了。未來隨著訓練的加強，該問題也會逐步得到解決。

對於文生視訊工具Sora的技術實力，輝達科學家DrJimFan評價稱，Sora 是一個數據驅動的物理引擎。它是對許多世界的模擬，無論是真實的還是幻想的。模擬器透過一些去噪和梯度數學來學習復雜的渲染、「直觀」物理、長期推理和語意基礎。「如果 Sora 使用虛幻引擎 5 對大量合成數據進行訓練，我不會感到驚訝，它也必須如此。」DrJimFan表示。

一位人工智慧領域人士評價稱，視訊生成居然引入了物理引擎模擬，這樣來看再升維進入3D生成應該就指日可待了。趣丸集團副總裁莊明浩認為Sora的面世影響的不僅是文生視訊領域，下一步將是過去一年各家遊戲物理引擎廠商們一直在嘗試的自然語言改造生產流程，以及3D素材生產這個戰場。

OpenAI方面在技術報告中表示，並未將Sora單純視作視訊模型，而是將視訊生成模型作為「世界模擬器」，不僅可以在不同裝置的原生寬高比直接建立內容，而且展示了一些有趣的模擬能力，如3D一致性、長期一致性和物件永續性等。目前Sora能夠生成一分鐘的高保真視訊，OpenAI認為擴充套件視訊生成模型是構建物理世界通用模擬器的一條有前途的途徑。