影片神器Sora，楊立昆透露技術細節，參數量僅30億

2024-02-18科技

在今年二月十六日， OpenAI推出了它的第一個文本生成式大模式—— Sora，這一訊息在業界引起了軒然大波。Sora能夠透過文字線索自動合成出高品質的影像，展現出令人驚嘆的畫面與邏輯推理功能。Sora的具體技術機制及具體內容並沒有對外公布，但是已經有不少人工智能方面的權威人士對此做出過點評，尤其是 Meta的人工智能研究負責人楊立昆，在公布 Sora的一些基本文獻以及大量的參量表後，大家對 Sora的技術能力有了一個直觀的認識。

Sora的推出引發了極大的興趣與熱議，除了 OpenAI行政總裁山姆·阿爾特曼與共同創始人埃隆·馬斯克之外，360公司的周鴻祎，出門問問的李誌飛，前阿裏的副總賈揚清，以及一些影視、行銷行業的從業者，也都對這種新的東西產生了濃厚的興趣，甚至有些行業的從業者也對此產生了擔憂。此外， OpenAI網站還釋出了由 Sora制作的48段錄像，內容涉及不同的情景與話題，例如海上單車大賽，一名男子向大貓王鞠躬，一條鯊魚躍出海面將海灘上的人們嚇壞了等等，令觀眾們對 Sora的創意與想象贊嘆不已。

Sora的具體工作機制和具體內容還沒有公布，不過已經有不少 AI界的權威人士對此做出了點評，而這當中最受關註的莫過於 Meta的人工智能研究人員楊立昆，他將紐約大學的助教謝賽寧的微博，以及 Sora的基本文獻以及參照次數都給了他。楊立昆表示，謝賽寧與其前任柏克萊大學學生 William Peebles共同撰寫了一篇關於「傳播轉換」的文章，後者目前也是 OpenAI的一名工程師，而後者則是 Sora的基石。該文章因為「不夠新穎」而被一家電腦視覺學會拒絕。楊立昆還特別提到了，第一作者謝賽寧曾經是他的同僚，二作是他曾經的弟子，第三作是他本人，第四作者則是他的前導師，柏克萊分校的崔佛·達雷爾。

在此基礎上，本文提出了一種新的演算法——擴散轉換器。其基本思路是將物體的產生分為兩個步驟：一是對物體進行高斯白噪音的壓縮，二是將其逐漸擴充套件到物體或影片中。傳播轉換器不僅能充分發揮 Transformer自身的優勢，還能有效地捕獲長距離相關的影像/影片，還能充分發揮傳播傳播的隨機特性，提高產生的多樣性與穩定性。該演算法已成功地套用於多種圖片、影片的自動合成，其效能優於以往的人工合成演算法。

謝賽寧在推特上猜測， Sora采用的是一種傳播式 Transformer體系結構，但是它也有谷歌最新推出的「NaViT」，它把「Transformer」用於時空兩個維度。謝賽寧也對 Sora中的參數數目進行了估計，主要是基於影像的品質和運算能力，估計 Sora的參數數目在30億左右，與GPT-3最小值（1750億）和GPT-4 （1000萬億）之間相差甚遠。謝賽寧說這個尺寸很合適，不會太大，也不會太小，這樣就能在最短的時間內，達到最好的效果。

Sora的推出對於人工智能來說是一個重要的突破，顯示了文字影片的強大潛能與未來，同時也讓大家對人工智能產生了驚奇與思索。雖然目前 Sora的具體實作方法還沒有對外釋出，但是透過大量的數據和評估，我們可以更加清晰地認識到 Sora的優勢，同時也更加期待它的發展。