新V觀海外：OpenAI Sora模型背後的架構創新

2024-02-18科技

陳沛/文 OpenAI最近介紹了新的AI視訊模型Sora的部份生成視訊範例，引發了很多關註。Sora模型直觀上帶來的最大提升是能夠直接生成長達60秒的視訊，且在視訊質感和流暢度方面表現的非常出色。

由於OpenAI的明星效應，Sora模型一經推出便引發很多使用者競相轉發，表示視訊效果驚為天人，視訊制作的相關工作都會被取代。

Sora模型的實際生成效果仍是未知數

但從我實際使用和觀察RunwayML、Stable Video Diffusion（SVD）、Adobe Firefly等主流AI視訊服務的情況來看，目前AI生成視訊的質感往往達不到最初宣傳的效果，還會在物體行進方向、人物四肢等方面出現明顯錯誤，無法滿足實際套用的需求。

而Sora模型目前還處於測試階段，預計再經過一段時間的安全測試和使用者反饋後才會正式提供服務，因此還無法了解Sora模型的實際效果。

不過，OpenAI也沒有刻意回避Sora模型生成錯誤內容的情況。在OpenAI釋出的技術報告中有一段Sora模型生成的錯誤視訊，展示了桌上的水杯會先從底部流出果汁，然後沿著錯誤的方向和角度倒在桌上。

Sora模型的背後是2022年剛剛面世的新架構

Sora模型的最大突破是視訊時長。與之前的RunwayML、SVD只能生成4秒左右的視訊片段相比，Sora模型生成的60秒視訊實作了明顯提升。

Sora模型實作視訊時長突破的主要功臣是它所采用的Diffusion Transformer架構。該架構由Sora模型的主要作者Bill Peebles在2022年剛剛提出，才在ICCV 2023大會上做過介紹。

按照Bill Peebles在論文中的說法，他將Transformer結構替代了Diffusion模型中常用的U-Net結構，並將影像輸入轉化成了Patch（類似語言模型中輸入的Token），得到了新的Diffusion Transformers架構，提升了原來Diffusion模型在深度和寬度上的可延伸性，為視訊模型增加輸出時長奠定了基礎。

實際上，不僅Sora模型背後的Diffusion Transformer架構才面世不久，就連Sora技術報告後參照的32篇研究論文中，絕大多數也都是近3年新釋出的研究結果。

研究驅動和融資驅動已成為AI發展的關鍵要素

回首2017年Transformer研究論文面世後，2019年就出現了第一個GPT模型的發展成果。而近兩年剛剛提出Diffusion Transformer的研究論文，很快就轉化成了Sora模型這樣的突破性產品。

如今AI領域的重要變化，往往不是來自於某個功能或套用層面，而是發源於底層架構的研究創新。研究驅動正在AI開發中起到越來越關鍵的作用。

另一方面，有了Diffusion Transformer這樣的研究創新後，往往也是在OpenAI這樣資源雄厚的機構中才能做的出來。

在開發階段，把Diffusion Transformer的研究落地成Sora的產品需要投入大量的預訓練、數據、工程資源。而在Sora服務正式推出後，營運推理過程中的資源消耗和算力成本也不可小視，融資驅動也正在成為AI發展的必要條件。

從Sora模型這個例子也能看出，要深度理解AI領域的關鍵動向，如今必須要從研究層面和融資層面進行觀察和跟蹤，從而更好地洞察AI發展的未來走勢。