揭秘Sora：開發團隊成立不到1年，站在谷歌肩頭，核心技術曾因「缺乏創新」遭拒絕

2024-02-18科技

2月16日，OpenAI的AI影片模型Sora炸裂出道，生成的影片無論是清晰度、連貫性和時間上都令人驚艷，一時間，諸如「現實不存在了！」的評論在全網刷屏。

Sora是如何實作如此顛覆性的能力的呢？這就不得不提到其背後的兩項核心技術突破——Spacetime Patch（時空Patch）技術和Diffusion Transformer（DiT，或擴散型 Transformer）架構。

【每日經濟新聞】記者查詢這兩項技術的原作論文發現，時空Patch的技術論文實際上是由谷歌DeepMind的科學家們於2023年7月發表的。DiT架構技術論文的一作則是Sora團隊領導者之一William Peebles，但戲劇性的是，這篇論文曾在2023年的電腦視覺會議上因「缺少創新性」而遭到拒絕，僅僅1年之後，就成為Sora的核心理論之一。

如今，Sora團隊毫無疑問已經成為世界上最受關註的技術團隊。記者查詢OpenAI官網發現，Sora團隊由Peebles等3人領導，核心成員包括12人，其中有多位華人。值得註意的是，這支團隊十分年輕，成立時間還尚未超過1年。

核心突破一：時空Patch，站在谷歌肩膀上

此前，OpenAI在X平台上展示了Sora將靜態影像轉換為動態影片的幾個案例，其逼真程度令人驚嘆。Sora是如何做到這一點的呢？這就不得不提到該AI影片模型背後的兩項核心技術——DiT架構和Spacetime Patch（時空Patch）。

據外媒報道，Spacetime Patch是Sora創新的核心之一，該項技術是建立在谷歌DeepMind對NaViT（原生分辨率視覺Transformer ）和ViT（視覺Transformer）的早期研究基礎上。

Patch可以理解為Sora的基本單元，就像GPT-4 的基本單元是Token。Token是文字的片段，Patch則是影片的片段。GPT-4被訓練以處理一串Token，並預測出下一個Token。Sora遵循相同的邏輯，可以處理一系列的Patch，並預測出序列中的下一個Patch。

Sora之所以能實作突破，在於其透過Spacetime Patch將影片視為修補程式序列，Sora保持了原始的寬高比和分辨率，類似於NaViT對影像的處理。這對於捕捉視覺數據的真正本質至關重要，使模型能夠從更準確的表達中學習，從而賦予Sora近乎完美的準確性。由此，Sora能夠有效地處理各種視覺數據，而無需調整大小或填充等預處理步驟。

記者註意到，OpenAI釋出的Sora技術報告中透露了Sora的主要理論基礎，其中Patch的技術論文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預印本網站arxiv後發現，該篇研究論文是由谷歌DeepMind的科學家們於2023年7月發表的。

圖片來源：arxiv.org

圖片來源： Google Scholar

核心突破二：擴散型Transformer架構，相關論文曾遭拒絕

除此之外，Sora的另一個重大突破是其所使用的架構，傳統的文本到影片模型（如Runway、Stable Diffusion）通常是擴散模型（Diffusion Model），文本模型例如GPT-4則是Transformer模型，而Sora則采用了 DiT架構，融合了前述兩者的特性。

據報道，傳統的擴散模型的訓練過程是透過多個步驟逐漸向圖片增加噪點，直到圖片變成完全無結構的噪點圖片，然後在生成圖片時，逐步減少噪點，直到還原出一張清晰的圖片。Sora采用的架構是透過Transformer的編碼器-解碼器架構處理包含噪點的輸入影像，並在每一步預測出更清晰的影像。 DiT架構結合時空Patch，讓Sora能夠在更多的數據上進行訓練，輸出質素也得到大幅提高。

OpenAI釋出的Sora技術報告透露，Sora采用的 DiT架構是基於一篇名為Scalable diffusion models with transformers的學術論文。記者查詢預印本網站arxiv後發現，該篇原作論文是2022年12月由柏克萊大學研究人員 William (Bill) Peebles 和紐約大學的一位研究人員Saining Xie共同發表。William (Bill) Peebles之後加入了OpenAI，領導Sora技術團隊。

圖片來源：arxiv.org

然而，戲劇化的是，Meta的AI科學家Yann LeCun在X平台上透露，「這篇論文曾在2023年的電腦視覺會議（CVR2023）上因‘缺少創新性 ’ 而遭到拒絕，但在2023年國際電腦視覺會議（ICCV2023）上被接受發表，並且構成了Sora的基礎。」

圖片來源： X平台

作為最懂DiT架構的人之一，在Sora釋出後，Saining Xie在X平台上發表了關於Sora的一些猜想和技術解釋，並表示，「Sora確實令人驚嘆，它將徹底改變影片生成領域。」

「當Bill和我參與DiT專案時，我們並未專註於創新，而是將重點放在了兩個方面：簡潔性和可延伸性。」他寫道。「簡潔性代表著靈活性。關於標準的ViT，人們常忽視的一個亮點是，它讓模型在處理輸入數據時變得更加靈活。例如，在遮蔽自編碼器（MAE）中，ViT幫助我們只處理可見的區塊，忽略被遮蔽的部份。同樣，Sora可以透過在適當大小的網格中排列隨機初始化的區塊來控制生成影片的尺寸。」

圖片來源：X平台

不過，他認為， 關於Sora仍有兩個關鍵點尚未被提及。一是關於訓練數據的來源和構建 ，這意味著數據很可能是Sora成功的關鍵因素； 二是關於（自回歸的）長影片生成， Sora的一大突破是能夠生成長影片，但OpenAI尚未揭示相關的技術細節。

年輕的開發團隊：應屆博士帶隊，還有00後

隨著Sora的爆火，Sora團隊也來到世界舞台的中央，引發了持續的關註。記者查詢OpenAI官網發現，Sora團隊由William Peebles等3人領導，核心成員包括12人。從團隊領導和成員的畢業和入職時間來看，這支團隊成立的時間較短，尚未超過1年。

圖片來源：OpenAI官網

從年齡上來看，這支團隊也非常年輕，兩位研究負責人都是在2023年才剛剛博士畢業。William (Bill) Peebles於去年5月畢業，其與Saining Xie合著的擴散Transformer論文成為Sora的核心理論基礎。Tim Brooks於去年1月畢業，是DALL-E 3的作者之一，曾在谷歌和輝達就職。

圖片來源：William (Bill) Peebles個人主頁

團隊成員中甚至還有00後。團隊中的Will DePue生於2003年，2022年剛從密西根大學電腦系本科畢業，在今年1月加入Sora專案組。

圖片來源：Will DePue個人主頁

此外，團隊還有幾位華人。據媒體報道，Li Jing是 DALL-E 3 的共同一作，2014年本科畢業於北京大學物理系，2019年獲得MIT物理學博士學位，於2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其余華人員工包括Yufei Guo等尚未有太多公開資料介紹。

每日經濟新聞