中信證券：持續看好AI算力，尤其是後續商業端成熟而帶來的更多AI推理側算力的機會

2024-02-19科技

近一周內，OpenAI和谷歌分別推出了他們的最新AI模型，圍繞影片多模態這個核心關鍵點雙方不斷加碼。Gemini1.5 Pro基於大語言模型處理影片模態，上下文長度超過百萬， Sora在技術上采用了Diffusion Transformer的路線，OpenAI表示Sora在訓練過程中表現出了與其他模型不同的湧現能力，有望成為真正的「世界模型」。從投資角度來看，Sora背後的湧現能力為自動駕駛、設計等需要現實世界建模的行業提供了明確方向。Gemini在短期內的部份商業場景表現可能會更為出色，尤其是需要結合圖片與文字的多模態套用場景。除去套用端的投資機會，硬件端的需求也必然會隨著多模態的技術進步而不斷提高，我們仍然持續看好AI算力，尤其是後續商業端成熟而帶來的更多AI推理側算力的機會。

▍事件背景：

近一周內，OpenAI和谷歌分別推出了他們的最新AI模型，展現了各自在人工智能技術上的最新進展。2月16日，OpenAI介紹了其首個影片AI模型Sora，這款模型可以根據文本指令生成最長60秒的高質素影片，並能夠依據文字提示進行影片內容的調整。與此同時，谷歌也宣布了其新一代多模態模型Gemini Pro 1.5的釋出，該模型具有突破性的能力，能夠處理達到100萬tokens的復雜上下文。

▍技術進展：圍繞影片多模態，谷歌與OpenAI在基礎演算法領域不斷加碼。

Google推出的Gemini1.5 Pro就架構而言，引入了能夠將神經網絡細分為更小「專家」的MoE架構（這也是普遍猜測中GPT-4采用的架構），使其相較傳統的Transformer架構更為高效。

就模型能力而言，Gemini 1.5 Pro的最大提升在於支持了100萬tokens的Context Window，遠超前代的3.2萬tokens，意味著模型能夠一次性處理更加大量的資訊。在演示中，谷歌使用長影片作為例子，Gemini最新版本可以處理長達1個小時的長影片，並理解影片的內容進行回答，展現出了語言模型的極強的多模態處理能力。OpenAI的Sora模型相比Gemini1.5 Pro有所區別，它並不是一個語言模型，而是一個純粹的影片生成模型，更接近於我們以前所知的Dalle、Stable Diffusion、Midjourney等模型。Sora在底層上采用了與文生圖模型相同的Diffusion Model（擴散模型）的框架，但采用了Transformer層取代了傳統的Unet層。

具體而言，Sora首先對視覺數據建模，將影片壓縮到低位的潛變量空間（Latent Network），然後將其拆解為一個個碎片(Patches)。在引入了Transformer的多頭註意力層後，模型將每一個Patch當做語言模型中的文字Token處理，幫助模型學習海量影片中不同碎片間的動態關聯。因此我們看到OpenAI將其模型成為Diffusion Transformer，融合了當期最熱門的語言模型與文生圖模型，並且在成果上我們看到了Sora相比於其他影片生成模型更多的靈活性，以及對物理世界的理解能力。

▍後續影響：Sora的推出帶來了更大的市場影響力，湧現能力為「世界模型」的誕生提供了基礎。

Gemini1.5 Pro提供了相當驚艷的大語言模型處理影片模態的綜合能力，但相較之下市場把更多關註度給到了Sora，這是因為Gemini的升級本質上是對過去模型的繼續叠代最佳化，而Sora的出現給電腦視覺領域可能提供了一條嶄新而明確的道路。在技術上Sora采用了Diffusion Transformer的路線，OpenAI表示Sora在訓練過程中表現出了與其他模型不同的湧現能力，透過湧現學習到了物品的時間與空間相關性以及與周圍世界的互動能力等等。得益於這種基於規模的湧現能力，如果後續持續擴大模型以及訓練集的規模，那麽將來以Sora為基礎的模型可能做到模擬整個物理和數碼世界，成為真正的「世界模型」。長期以來，電腦視覺領域的研究一直過於碎片化，直到目前實際用例中的電腦視覺模型仍根據不同任務采取不同的小模型。而Sora的成功以及其背後展現出的湧現能力可能為電腦視覺領域的研究提供了一個明確的方向，成為未來影片與模擬領域（例如自動駕駛）的統一範式。

▍商業推演：Sora模型受制於能力與成本實用性較低，Gemini短期商業化潛力較大。

盡管Sora相較於Gemini引起了更大的轟動，其本身也是技術上的進一步創新，但我們也無法忽視Sora目前存在的多種局限性。首先在能力上Sora距離可實用還有較大距離，OpenAI明確表示Sora雖然能理解部份因果關系與物理現象，但難以在較長影片中準確模擬復雜場景中的物理現象、可能無法理解具體的因果關系、可能混淆提示的空間細節以及可能難以準確描述隨時間變化的事件。這與我們觀察到的Sora Demo的表現也較為一致，在影片時長拉長到10秒以上時，Sora經常會出現在物理定律以及互動過程中的小錯誤。其次成本是Sora無法忽視的問題，Sora采用的Latent空間壓縮，我們進行簡單估算：對於一個60幀的影片（約6-8秒），其需要約6萬個Patches，如果去噪步數是20的話，相當於要生成120萬個Tokens，這是相當大的計算量。同時考慮到擴散模型在實際使用時往往需要多次生成的特點，實際計算量會遠超剛剛計算的120萬個Tokens。相較之下，Gemini是在原有模型上的繼續叠代，其最大特點是加長了context window與多模態能力，這些都是短期內更為實用的更新，在成本可控的條件下，我們更看好Gemini在短期的商業表現。

▍風險因素：

AI核心技術發展不及預期風險；科技領域政策監管持續收緊風險；私有數據相關的政策監管風險；全球宏觀經濟復蘇不及預期風險；宏觀經濟波動導致歐美企業IT支出不及預期風險；AI潛在倫理、道德、使用者私密風險；企業數據泄露、資訊保安風險；行業競爭持續加劇風險等。

▍投資策略：

本次谷歌與OpenAI兩家公司的模型更新仍然是圍繞底層演算法層面，尤其是模型的影片多模態方面進行展開，我們維持多模態與成本降低將是今年AI演算法發展最核心的兩個主線的判斷。從技術角度，Sora所展現出來的框架能力更為驚艷，背後的湧現能力為自動駕駛、設計等需要現實世界建模的行業提供了明確方向，但其技術成熟度還處在早期階段，同時成本開銷過於巨大。相較而言，Gemini在短期內的部份商業場景表現可能會更為出色，尤其是需要結合圖片與文字的多模態套用場景。除去套用端的投資機會，硬件端的需求也必然會隨著多模態的技術進步而不斷提高，我們仍然持續看好AI算力層面，尤其是得益於商業端成熟而帶來的更多的AI推理側算力的機會。

本文源自：券商研報精選