當前位置: 華文世界 > 科技

中泰證券:Sora重磅釋出,AI生成視訊迎巨大創新,建議關註AI大模型發展帶來的產業鏈機遇

2024-02-19科技

事件:台北時間2月16日淩晨,Open AI釋出旗下第一個文生視訊模型Sora。Sora可以直接輸出長達60秒的視訊,並且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色,對語言有深刻理解,能夠準確領會使用者的提示。

Open AI釋出第一個文生視訊模型Sora。Sora是基於difussion擴散的transformer 模型,憑借其強大的通用視覺數據處理,可以生成跨越不同持續時間、長寬比和分辨率的影像視訊,最多可以連續生成60秒(一分鐘)的高畫質視訊。Sora是Open AI在GPT-4及DALL-E等語言和影像模型的基礎上進一步的創新突破,該模型能夠從類似於靜態噪音的視訊開始,逐漸去除噪音生成視訊。此外,該模型能夠生成包含多個角色、特定型別運動和主體及背景精確細節的復雜場景,能在單個生成的視訊中建立多個鏡頭,使角色和視覺風格保持準確一致。

訓練采樣靈活,打破此前擴散模型局限性。Sora采用的是DALL·E 3的重標註技術,透過為視覺訓練數據生成詳細描述的標題,使模型更加準確地遵循使用者的文本指令生成視訊。Sora還能夠為現有圖片賦予動態效果或延伸視訊內容的長度。Sora的靈感來自於語言模型,參照LLM的文本標記方法,Sora采用了視覺修補程式方法,即把用於訓練的圖片、視訊壓縮為多個patch,把patch作為token進行訓練,而非在影像域上進行訓練,因此無需對視訊的大小、時長進行限定、裁剪,訓練端不會接受到殘缺數據。

跨時代文生視訊模型,有望推動硬體需求進一步提升。Sora基於圖片做長視訊生成,再基於生成視訊做extend,其所需token數量相較於文本及圖片模型的推理,有望成數量級增長,我們判斷Sora將刺激推理算力需求將持續上升。此外,推理端 token增加、算力需求的增長,也對視訊記憶體及頻寬提出更高要求,預計將拉升400G光通訊技術在乙太網路中的套用,並有望推動800G乃至1.6T光通訊技術的套用。

投資建議:建議關註 AI 大模型發展帶來的產業鏈機遇

風險提示:需求不及預期、產能瓶頸的束縛、大陸廠商技術進步不及預期、中美貿易摩擦加劇、研報使用的資訊更新不及時。

本文源自:券商研報精選