當前位置: 華文世界 > 科技

新V觀海外:OpenAI Sora模型背後的架構創新

2024-02-18科技

陳沛/文 OpenAI最近介紹了新的AI視訊模型Sora的部份生成視訊範例,引發了很多關註。Sora模型直觀上帶來的最大提升是能夠直接生成長達60秒的視訊,且在視訊質感和流暢度方面表現的非常出色。

由於OpenAI的明星效應,Sora模型一經推出便引發很多使用者競相轉發,表示視訊效果驚為天人,視訊制作的相關工作都會被取代。

Sora模型的實際生成效果仍是未知數

但從我實際使用和觀察RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI視訊服務的情況來看,目前AI生成視訊的質感往往達不到最初宣傳的效果,還會在物體行進方向、人物四肢等方面出現明顯錯誤,無法滿足實際套用的需求。

而Sora模型目前還處於測試階段,預計再經過一段時間的安全測試和使用者反饋後才會正式提供服務,因此還無法了解Sora模型的實際效果。

不過,OpenAI也沒有刻意回避Sora模型生成錯誤內容的情況。在OpenAI釋出的技術報告中有一段Sora模型生成的錯誤視訊,展示了桌上的水杯會先從底部流出果汁,然後沿著錯誤的方向和角度倒在桌上。

Sora模型的背後是2022年剛剛面世的新架構

Sora模型的最大突破是視訊時長。與之前的RunwayML、SVD只能生成4秒左右的視訊片段相比,Sora模型生成的60秒視訊實作了明顯提升。

Sora模型實作視訊時長突破的主要功臣是它所采用的Diffusion Transformer架構。該架構由Sora模型的主要作者Bill Peebles在2022年剛剛提出,才在ICCV 2023大會上做過介紹。

按照Bill Peebles在論文中的說法,他將Transformer結構替代了Diffusion模型中常用的U-Net結構,並將影像輸入轉化成了Patch(類似語言模型中輸入的Token),得到了新的Diffusion Transformers架構,提升了原來Diffusion模型在深度和寬度上的可延伸性,為視訊模型增加輸出時長奠定了基礎。

實際上,不僅Sora模型背後的Diffusion Transformer架構才面世不久,就連Sora技術報告後參照的32篇研究論文中,絕大多數也都是近3年新釋出的研究結果。

研究驅動和融資驅動已成為AI發展的關鍵要素

回首2017年Transformer研究論文面世後,2019年就出現了第一個GPT模型的發展成果。而近兩年剛剛提出Diffusion Transformer的研究論文,很快就轉化成了Sora模型這樣的突破性產品。

如今AI領域的重要變化,往往不是來自於某個功能或套用層面,而是發源於底層架構的研究創新。研究驅動正在AI開發中起到越來越關鍵的作用。

另一方面,有了Diffusion Transformer這樣的研究創新後,往往也是在OpenAI這樣資源雄厚的機構中才能做的出來。

在開發階段,把Diffusion Transformer的研究落地成Sora的產品需要投入大量的預訓練、數據、工程資源。而在Sora服務正式推出後,營運推理過程中的資源消耗和算力成本也不可小視,融資驅動也正在成為AI發展的必要條件。

從Sora模型這個例子也能看出,要深度理解AI領域的關鍵動向,如今必須要從研究層面和融資層面進行觀察和跟蹤,從而更好地洞察AI發展的未來走勢。