當前位置: 華文世界 > 科技

Sora沖擊波

2024-02-18科技

2023年春節,AI圈的絕對主角是屬於ChatGPT的,2024年春節,OpenAI再次一顆「深水炸彈」,毫無預兆釋出的文生視訊模型Sora,讓AI圈又一次「一夜變天」。

一是時長,二是逼真程度,Sora實作了兩個老大難問題的同時解決,以至於外界毫不吝嗇地將其形容為「顛覆性」的存在。360創始人周鴻祎說,Sora的釋出意味著AGI的(通用人工智慧)實作將從十年縮短到一年。

Sora或者說是OpenAI,正醞釀並引領一場新的巨變。

又現王炸

沒有任何預兆和訊息的提前透露,近日,OpenAI突然釋出了第一個文生視訊模型Sora,逼真程度瞬間「引爆」市場。

「一句話生成視訊」正無限接近於現實。在OpenAI的展示中,只需要一段簡單的文本指令,Sora就可以直接輸出最長達60秒的視訊,並且包含高度細致的背景、復雜的多角度鏡頭以及富有情感的多個角色。

一位行走在東京街道上時尚女性的視訊幾乎成了Sora的「代表作」。這段一分鐘的視訊裏,從主要人物到背景人物,從近景到遠景,細致、逼真的畫面和流暢轉換的鏡頭幾乎以假亂真。

OpenAI介紹稱,因使用Transformer架構,Sora具有極強的擴充套件性,同時在基於過去對DALL·E和GPT的研究基礎構建上還利用了DALL·E 3的重述提示詞技術,為視覺模型訓練數據生成高描述性的標註。

國泰君安研報指出,Sora具有三大突出亮點,一是60秒長視訊,Sora可以保持視訊主體與背景的高度流暢性與穩定性。二是單視訊多角度鏡頭,Sora在一個視訊內實作多角度鏡頭,分鏡切換符合邏輯且十分流暢。三是理解真實世界的能力,Sora對於光影反射、運動方式、鏡頭移動等細節處理得十分優秀,極大地提升了真實感。

對於文生視訊的技術問題,北京市社會科學院副研究員王鵬對北京商報記者提到,這首先涉及到演算法的復雜性。文生視訊技術不僅涉及文本到影像的轉換,還需要處理時序資訊和音訊同步。這需要復雜的深度學習模型,如生成對抗網路(GANs)和變分自編碼器(VAEs)等,以捕捉視訊中的動態變化和細節。

此外,訓練文生視訊模型需要大量的帶標註數據,包括文本描述和對應的視訊片段。這樣的數據集難以獲取和標註,尤其是對於特定領域的套用。數據的多樣性和品質也直接影響模型的生成能力。如果訓練數據缺乏多樣性或存在偏見,生成的視訊可能會缺乏創意或包含不準確的資訊。

不過OpenAI也承認,目前Sora還存在著一定的短板,比如無法準確地模擬復雜場景的物理原理,且無法理解這其中的因果關系,呈現在視訊上,可能就會出現一個人咬了一口餅乾後,餅乾並沒有咬痕的結果。

AGI加速

「透過文字描述的方式來生成前後有關聯的連續視覺內容的時代來臨了」。在接受北京商報記者采訪時,新壹科技CTO張華偉說,從Sora的效果看,穩定性已經很高了,這也意味著視訊內容的生產效率大大提升了。

新壹科技是目前國內在AIGC領域布局最為全面、技術較為成熟的人工智慧公司之一,2023年7月,壹科技釋出國內首款專註於視訊領域的AIGC模型「新壹視訊大模型」。

中國企業資本聯盟副理事長柏文喜對北京商報記者提到,Sora有望顛覆影視、遊戲、廣告等多個行業。隨著Sora等文生視訊技術的成熟,各行各業都可以利用其生成高品質的視訊內容,提高內容創作效率,降低制作成本。

「從長期來看,這種顛覆效應將更加明顯,可能導致傳統視訊制作人員的需求減少,進而推動整個行業的變革」。柏文喜稱。

不過中國資訊協會常務理事、國研新經濟研究院創始院長朱克力提到,這種顛覆還需要一定的時間,因為Sora盡管在技術上取得了突破,但在實際套用中還需要解決許多問題,如模型的穩定性、可延伸性和計算效率等。此外,各行業對於新技術的接受和套用也需要一個過程。

但Sora真正的「星辰大海」,很可能早就超過了視訊的範疇。就像周鴻祎在評價Sora時說的,「我認為AGI很快會實作,就這幾年的事兒了」。

在接受北京商報記者采訪時,天使投資人、資深人工智慧的郭濤提到,與文本和影像相比,視訊不僅包含了靜態影像的空間資訊,還加入了時間維度,要求模型能夠理解和預測隨時間變化的動態場景。

這意味著Sora需要處理更加豐富的數據型別,包括物體的運動、光影變化、遮擋關系等,這些都是AGI所需解決的核心問題。

朱克力也表示,文生文和文生圖主要關註的是靜態資訊的轉換和表達,而文生視訊則需要在連續的時間序列中保持場景的一致性、物體的動態關系和光影的變化,這要求模型具備更強的時空建模能力和更高的計算復雜度。因此,文生視訊技術的成功對於推動AGI的發展具有更為顯著的作用。

事實上,自從ChatGPT的橫空出世,AI圈便再次燃起了通用人工智慧的浪潮,而ChatGPT也被視為通用人工智慧的起點和強人工智慧的拐點。周鴻祎說,大語言模型最牛的點在於,他不是填空機,而是能完整地理解這個世界的知識。

而Sora對真實世界的理解能力也是AGI得以實作最重要的因素之一。按照周鴻祎的說法,OpenAI利用其大語言模型的優勢,把LLM和Diffusion結合起來訓練,讓Sora實作了對現實世界的理解和對世界的模擬兩層能力,跳出2D的範圍模擬真實的物理世界。

「所以Sora只是小試牛刀,它展現的不僅僅是一個視訊制作的能力,而是大模型對真實世界有了理解和模擬之後,會帶來新的成果和突破。」周鴻祎說。

理想與現實

據悉,目前Sora並未對公眾全面開放,僅邀請部份測試者進行體驗。造成這一情況的原因,是Sora所引發的關於濫用視訊生成技術所帶來的安全性擔憂,而這也幾乎可以看做是Sora想要「做大做強」必然需要邁過的一道坎。

王鵬總結出了文生視訊的三大難點,分別是真實性問題、創意和版權問題以及可解釋性和透明度問題。

具體而言,隨著文生視訊技術的發展,生成的視訊越來越難以與真實視訊區分。這可能引發一系列的倫理和社會問題,如虛假資訊的傳播、私密侵犯等。

而AI生成的視訊是否應該受到版權保護?如果AI使用了人類藝術家的作品作為訓練數據,那麽生成的視訊是否侵犯了原作的版權?這些問題目前還沒有明確的答案。

此外,AI模型,包括文生視訊模型,往往缺乏可解釋性和透明度。這意味著當模型出現錯誤或偏見時,很難找出原因並進行糾正。這增加了模型在實際套用中的風險。

但這些並不足以阻擋文生視訊的發展。聚焦國內,有媒體不完全統計數據顯示,包括萬興科技、博匯科技、易點天下、數位視訊、漢王科技、當虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內的超10家A股上市公司近三個月以來在互動平台披露視訊生成模型領域的業務情況。

而在2023年6月,萬興科技就曾公告,基於AI文生視訊以及3D數位人等技術開發了數位人行銷短視訊創作工具,面向跨境行銷和電商領域使用者,透過AIGC與虛擬數位人技術快速生成「真人」主播,解決傳統電商行銷視訊實拍模式下的外籍模特數量少、多語言轉譯配音難度高、制作周期長、成本居高不下等問題。

周鴻祎說:「OpenAI的CEO艾爾特曼是個行銷大師,他知道怎樣掌握節奏。」但更值得警惕的是,Sora的行銷「心機」背後,OpenAI隱藏的實力。就像周鴻祎說的:「他們手裏的武器並沒有全拿出來,這樣看來,中國跟美國的AI差距可能還在加大。」

2023年是國內大模型競爭白熱化的一年。【北京市人工智慧行業大模型創新套用白皮書(2023年)】顯示,中國10億參數規模以上的大模型已超過200個。而從2023年下半年開始,大模型競爭焦點也開始從底層模型的搭建轉移向行業的落地套用。

工業和資訊化部賽迪研究公布的生成式人工智慧領域的相關數據顯示,2023年中國生成式人工智慧的企業采用率已達15%,市場規模約為14.4萬億元。在制造業、零售業、電信行業和醫療健康等四大行業的生成式人工智慧技術的采用率均實作較快增長。

不過從整體而言,國內在AI領域的發展仍稍顯遜色,未出現代表性套用的同時,行業發展也出現「降溫」跡象。CB insights報告顯示,去年,中國AI領域投融資數量約為232筆,同比下降38%,融資總額約為20億美元,同比下降70%。

有分析師解讀,這意味著,熱錢可能集中地湧向了少數團隊背景和技術實力強大的公司。從資源分配的角度而言,後來者想要再擠進模型層創業,空間已經不多。

「不少國內的大模型企業仍然面臨缺少自主創新的問題,如果不能知其然,必然不能知其所以然」。在接受北京商報記者采訪時,一位業內人士如此說道。

北京商報記者 楊月涵