繼Runway、Pika、字節PixelDance、萬興「天幕」釋出,2月16日淩晨,「王炸」模型Sora橫空出世,AI視訊生成迎來「GPT時刻」。
在Open AI公布的48個樣片中,Sora展現出令人驚嘆的視訊生成效果,視訊時長提升至1分鐘,生成的角色表情逼真,還實作了多角度鏡頭切換與流暢分鏡,可展現真實光影、運動和鏡頭移動效果。
據了解,Sora是一個擴散Transformer模型,透過采用Diffusion Transformer等技術處理不同持續時間、分辨率和比例的視訊/影像,實作「世界模擬器」,達到理解真實世界的運動和物理能力。
對比Runway、Pika等玩家,Sora的特別之處在於,它能夠理解和模擬真實世界,從而生成符合物理和運動學規律的復雜場景的超逼真視訊。例如,當Sora學習人吃漢堡的視訊時,它記住的不僅是吃漢堡這一「具體畫面」,還有「咬了就會有痕跡」這個「物理規律」,讓AI生成的視訊更真實。
業內人士指出,世界模擬器是AI生成視訊的一種方式,它的成功會帶動視訊生成賽道的發展,加速視訊生成的創新和成熟。
面對AI視訊生成領域的廣闊前景,國內各廠商正加大投入,推動AI視訊生成進入全新時代。字節跳動於去年11月釋出PixelDance模型,不僅在視訊時長上實作了突破,還可透過描述(純文本)+首幀指導(圖片)+尾幀指導(圖片),生成包含復雜場景和動作的視訊,用上一個視訊片段尾幀為下一個視訊頭幀提供指導思路。
AIGC軟體A股上市公司萬興科技於今年年初推出國內第一個以音視訊為核心的多媒體大模型萬興「天幕」。作為一家產品創新型公司,萬興科技很早就擁抱AIGC,是首批開通Azure OpenAI商用服務許可權的國內企業,旗下Wondershare Filmora、萬興PDF、億圖圖示等軟體已進行AIGC化升級,並推出萬興播爆、萬興智演、Wondershare Kwicut等AIGC新品。
伴隨Sora釋出,作為音視訊多媒體垂類大模型的拓荒者,萬興「天幕」備受關註,但據了解,其與Sora在定位、能力、使用者群等方面具有一定的差異化。定位上,萬興「天幕」是音視訊多媒體創作垂類大模型,由視訊大模型、音訊大模型、圖片大模型、語言大模型組成,Sora則是基於視覺數據的底層通用模型,相當於視訊領域的Midjourney;能力上,萬興「天幕」涵蓋當前市面上語言、音訊、影像的大模型能力,Sora核心的文生視訊能力,是萬興「天幕」的原子能力之一;使用者方面,與Sora偏向影視公司或專業機構不同,萬興「天幕」面向更細分垂直的市場,包括泛知識、泛行銷、泛娛樂等領域,相關能力已在海外規模化商用。
AI視訊生成賽道前景廣闊。數據顯示,截至2023年末,僅國內短視訊使用者規模已突破10億人,不談增量市場可能帶來的紅利,僅僅為這10多億使用者提供AI視訊創意服務,就有大量文章可做。
在業內人士看來,Sora是AGI(通用人工智慧)實作的重要裏程碑,一方面,Sora的出現將全球目光聚焦於視訊生成領域,驗證了視訊為王的趨勢,也進一步驗證了無視訊不傳播的時代,「視訊+大模型」的套用市場空間擴充套件。
對於Sora是否會一家獨大,對相關AI視訊生成模型或廠家形成沖擊。業內人士認為,參考此前ChatGPT掀起的大語言模型熱潮,在ChatGPT爆紅後,全球大語言模型不僅沒有出現一家獨大的情況,反而隨著Google、Meta、輝達,以及百度、阿裏、華為等公司的入場,呈現百花齊放態勢,僅國內的大語言模型數量就早已超過百家。展望行業未來,Sora對於視訊大模型領域的推動作用也令人期待。
另一方面,一個大模型無法解決全世界的問題。伴隨全球算力需求爆發式增長,大模型正從全球化走向本土,算力本地布局、更本土化的數據、更本土化的套用是大勢所趨。例如,在Open AI釋出的Demo視訊「與中國龍一起慶祝農歷新年」中,Sora就無法準確生成視訊畫面中的中文。
日前,國泰君安證券釋出研報稱,Sora模型推動AI多模態領域飛躍式發展,AI創作等相關領域將迎來深度變革,AI賦能範圍進一步擴大,推薦萬興科技、金山辦公、科大訊飛、虹軟科技等標的。
一年前,ChatGPT以迅雷不及掩耳之勢走向全球,為文本創作領域帶來重大變革,並掀起了全球範圍內的「百模大戰」。
一年後的今天,Sora到來,AI視訊生成賽道或許迎來一個新的「ChatGPT時刻」,多模態大模型的升維競賽有望打響,AI視訊生成的技術和產品有望加速爆發。