2024年2月16日,人工智慧公司OpenAI釋出首款文生視訊大模型Sora,該模型可以快速生成60秒、準確反映使用者提示的視訊,再次驚艷全球。
這是在ChatGPT大模型之後,OpenAI帶給我們的再次震撼,在這短短的一分鐘視訊中,文本主題清晰,場景復雜精細,視訊邏輯順暢,標誌著文生視訊大模型能力進一步提升。
這種超預期能力的展示,也就怪不得微軟、輝達、AMD、超微電腦等人工智慧相關公司,在進入2024年以後還有亮眼的表現。
自從2023年下半年以來,從谷歌Gemini增加多模態功能,到Adobe 的Firefly2多模態大模型,再到OpenAI這次釋出的Sora大模型,我們看到各大人工智慧巨頭聚集多模態視訊生成領域。
那麽,多模態視訊生成大模型都有哪些亮點?
作為人工智慧大模型,多模態大模型能夠處理和理解文本、影像、音訊等多種型別的數據,通常具有龐大的參數量和深度學習能力,最終能夠按照使用者需求生成相應的內容。
近幾年以來,文生圖的技術已實作大幅的進步,海外公司Stable Diffusion、 Midjourney已經能夠提供較高品質的影像,國內的萬興科技的萬興愛畫、百度的文心一格也已經投入商用。
隨著文生圖技術的精進與成熟,對於文生視訊的技術的發展和關註逐漸增加。近3年時間,以Runway為代表的文生視訊初創公司不斷湧現,谷歌、Meta、微軟等互聯網巨頭同樣參與其中,國內目前文生視訊技術也緊跟其後。
不過,Sora之前的文本生成視訊模型仍然存在許多技術難點,生成效果還無法達到應有的效果,視訊模型訓練難、數據建模復雜以及文字理解不到位的多種情況都影響了生成視訊的最終效果。
現在,得益於DALL·E3所使用的擴散模型,以及GPT-4的Transformer引擎,Sora模型不僅能夠生成滿足特定要求的視訊,而且能夠展示出拍攝鏡頭的成熟運用。
從Sora模型生成的視訊效果來觀察,我們可以得出一個結論:透過大量視訊數據的持續訓練,這個視訊模型已經理解和學會了現實世界中的許多規律。
當然,現實世界是復雜多變的,當前的模型在模擬復雜場景的效果方面,仍然可能會遇到難題,模型仍然還有繼續進步的空間。
不過可以預期的事實是:能夠理解和模擬現實世界的模型越來越近了,實作真正的通用人工智慧AGI並不遙遠。
那麽,多模態視訊生成模型的發展前景又有多大呢?
對於視訊生成模型這個新事物來說,我們一方面震撼於技術的快速進步,另一方面也要考慮市場套用前景如何。
視訊制作市場非常龐大,從廣告宣傳到教育培訓再到娛樂媒體等方面都有著足夠的市場規模。市場研究顯示,全球視訊制作市場規模已經超過1000億美元,而且還在不斷增長。
以我們國家為例,2016年到2022年,中國視訊制作市場規模分別為19.0億元、55.3億元、467.1億元、1302.4億元、2051.3億元、2884.9億元和3860.7億元,市場規模增長迅速。
對於視訊制作市場來說,無論是全球範圍內,還是國內視訊制作市場規模,都已經達到數千億元規模,而且呈現出逐年增長的趨勢,可以說市場空間充足。
那麽對於視訊生成模型來說,能否成功商業化的關鍵,除了視訊效果以外,更重要的因素自然就是視訊制作成本是否有優勢了。
對於國內市場來說,比較尷尬的普通使用者付費意願偏低,企業端客戶的需求高度個人化,會有很多自身客製化的場景,需要業內公司針對不同客戶的產品需求去打造相應的生成方案,這對公司實力有很高的要求,長期看大公司可能具備更強的商業化落地場景。
那麽,國內都有哪些公司的業務涉及視訊生成大模型呢?
回顧A股上市公司,萬興科技、因賽集團、當虹科技、東方國信、虹軟科技、東虹科技、絲路視覺等公司都有過視訊生成方面的訊息。不過,我們還是要看誰能真正體現在營收數據中。
萬興科技 ,公司主營視訊創意、繪圖創意類軟體產品,公司旗下天幕大模型以視訊創意類AI技術為核心,擁有音訊、影像、視訊等多模態內容生成能力。
受益於AIGC發展,公司近5年業績快速增長。2018至2022年公司營收由5.46億元增長至11.8億元,年復合增速達21.25%;2023年前三季度實作營收10.96億元,同比增長30.69%,繼續保持快速增長的勢頭。
1月30日,公司釋出了【2023 年度業績預告】。2023年預計歸母凈利潤實作盈利7500-10000萬元,同比增長81.80%-142.39%;扣非歸母凈利潤為7800-10500萬元,同比增長636.06%-890.86%。改變了前兩年增收不增利的局面。
2018年至今,公司綜合毛利率穩定在95%左右,屬於有利競爭明顯的輕資產公司。也正是為了保持行業有利競爭,公司近年來持續保持高研發投入,2023前三季度研發費用為3.0億元,研發費用率為 27.45%。
2024年1月份,公司以15億創作者及100億本土化高品質音視訊數據沈澱,以音視訊生成式AI技術為基礎,釋出了「天幕」大模型,聚焦數位創意垂類創作場景,讓大模型套用落地更有針對性、更具實效。
釋出會現場重點展示了包括文生主題視訊、文生3D視訊、AI歌手、視訊AI配樂、數位人播報等在內的多媒體能力,具備商業化可行方案。
釋出會當天,公司還宣布和中廣天擇達成戰略合作,與華為雲、馬投算力(長沙馬欄山投資開發建設有限公司)達成算力方面的合作,打通多媒體大模型和算力領域的軟硬體戰略合作,也為公司大模型套用落地獲得了寶貴的算力資源。
總的來說,人工智慧屬於技術密集、資金密集型行業,最終往往是業內大公司更容易堅持到盈利周期的帶來,我們也持續關註行業的技術行程。