人工智能技術再次迎來重大突破！OpenAI釋出文本生成影片模型Sora，可生成60秒高畫質流暢影片

2024-02-17科技

深圳商報·讀創客戶端記者張郗郡

台北時間2月16日淩晨，OpenAI釋出了旗下首個文本生成影片模型Sora。據介紹，該模型可以根據輸入的文字指令直接生成60秒左右的影片，影片分辨率最高可達1080P，其中還包括了細致的背景、多角度的鏡頭以及多種類別的角色。

開啟OpenAI的官網，目前官方已經公布了48條由Sora生成並且沒有進行任何編輯的影片。

當輸入一段如下所示的文字：

「一個時髦的女人走在東京的街道上，到處都是溫暖的霓虹燈和生動的城市標誌。她穿著黑色皮夾克、紅色長裙、黑色靴子，拿著一個黑色錢包。她戴著太陽鏡，塗著紅色的口紅。她走起路來自信而隨意。街道是潮濕和反光的，營造出了彩色燈光的鏡子效果。一旁還有許多行人走來走去。」

Sora便生成了一則如文字內容所示，長達59秒的連貫影片。影片中，「鏡頭」隨著女人的行走而移動，並且擁有全身、臉部特寫多種景別，不管是皮膚的質感、衣服上的褶皺，還是背景中的行人和街頭景色，都做到了幾乎能夠以假亂真的程度。

來源：OpenAI官網

此外，官網公布的影片案例還包括了自然風光、動物世界、宇宙探索等多個場景，就連生成3D效果的動畫也不在話下。在官網展示的影片中，Sora根據指令生成了3D動畫風格的「毛絨怪獸」和海底景觀。影片中，一只長著獨角的毛絨小怪獸面朝著一支正在燃燒的蠟燭，臉上是如文字指示一般「驚奇和好奇」的表情，且「張開嘴巴凝視著火焰」，就制作的細膩程度而言，怪獸身上的絨毛、蠟燭火焰的光線，都已經能夠和現在市場中一些簡單的3D動畫制作水平相媲美。

來源：OpenAI官網

Sora的問世，無疑是人工智能發展過程中的又一道重要裏程碑。在此之前，行業內的AI影片生成模型主要包括Runway在2023年6月釋出的Gen-2、PIKA Labs在2023年11月釋出的Pika1.0等，但所生成影片的長度均停留在幾秒至十幾秒，影片的真實度也有待提高。而Sora不管是在影片的長度、復雜程度還是內容準確度方面，均展現出了目前業內最佳的水平。這也引發了影視和動畫行業從業者的恐慌，許多業內人士表示，Sora 的問世意味著以前需要花費大量金錢和人工的特效畫面可以輕松生成，一旦真正套用到影視工業中，整個行業將面臨一場巨大的「工業革命」。

誠然，目前Sora的影片生成能力並沒能達到十全十美的地步，官網公布的影片中也包含了一些錯誤案例，比如倒著跑步的人和憑空出現的動物。OpenAI同時也表示，目前正在教AI理解和模擬運動中的物理世界，以訓練模型來幫助人們解決需要現實世界互動的問題。但比起影片的真實程度，Sora的問世在OpenAI看來，更是一種理解和模擬現實世界的模型的基礎，而這一能力，將是實作AGI（通用人工智能）的重要裏程碑。