在今年二月十六日, OpenAI推出了它的第一個文本生成式大模式—— Sora,這一訊息在業界引起了軒然大波。Sora能夠透過文字線索自動合成出高品質的影像,展現出令人驚嘆的畫面與邏輯推理功能。Sora的具體技術機制及具體內容並沒有對外公布,但是已經有不少人工智能方面的權威人士對此做出過點評,尤其是 Meta的人工智能研究負責人楊立昆,在公布 Sora的一些基本文獻以及大量的參量表後,大家對 Sora的技術能力有了一個直觀的認識。
Sora的推出引發了極大的興趣與熱議,除了 OpenAI行政總裁山姆·阿爾特曼與共同創始人埃隆·馬斯克之外,360公司的周鴻祎,出門問問的李誌飛,前阿裏的副總賈揚清,以及一些影視、行銷行業的從業者,也都對這種新的東西產生了濃厚的興趣,甚至有些行業的從業者也對此產生了擔憂。此外, OpenAI網站還釋出了由 Sora制作的48段錄像,內容涉及不同的情景與話題,例如海上單車大賽,一名男子向大貓王鞠躬,一條鯊魚躍出海面將海灘上的人們嚇壞了等等,令觀眾們對 Sora的創意與想象贊嘆不已。
Sora的具體工作機制和具體內容還沒有公布,不過已經有不少 AI界的權威人士對此做出了點評,而這當中最受關註的莫過於 Meta的人工智能研究人員楊立昆,他將紐約大學的助教謝賽寧的微博,以及 Sora的基本文獻以及參照次數都給了他。楊立昆表示,謝賽寧與其前任柏克萊大學學生 William Peebles共同撰寫了一篇關於「傳播轉換」的文章,後者目前也是 OpenAI的一名工程師,而後者則是 Sora的基石。該文章因為「不夠新穎」而被一家電腦視覺學會拒絕。楊立昆還特別提到了,第一作者謝賽寧曾經是他的同僚,二作是他曾經的弟子,第三作是他本人,第四作者則是他的前導師,柏克萊分校的崔佛·達雷爾。
在此基礎上,本文提出了一種新的演算法——擴散轉換器。其基本思路是將物體的產生分為兩個步驟:一是對物體進行高斯白噪音的壓縮,二是將其逐漸擴充套件到物體或影片中。傳播轉換器不僅能充分發揮 Transformer自身的優勢,還能有效地捕獲長距離相關的影像/影片,還能充分發揮傳播傳播的隨機特性,提高產生的多樣性與穩定性。該演算法已成功地套用於多種圖片、影片的自動合成,其效能優於以往的人工合成演算法。
謝賽寧在推特上猜測, Sora采用的是一種傳播式 Transformer體系結構,但是它也有谷歌最新推出的「NaViT」,它把「Transformer」用於時空兩個維度。謝賽寧也對 Sora中的參數數目進行了估計,主要是基於影像的品質和運算能力,估計 Sora的參數數目在30億左右,與GPT-3最小值(1750億)和GPT-4 (1000萬億)之間相差甚遠。謝賽寧說這個尺寸很合適,不會太大,也不會太小,這樣就能在最短的時間內,達到最好的效果。
Sora的推出對於人工智能來說是一個重要的突破,顯示了文字影片的強大潛能與未來,同時也讓大家對人工智能產生了驚奇與思索。雖然目前 Sora的具體實作方法還沒有對外釋出,但是透過大量的數據和評估,我們可以更加清晰地認識到 Sora的優勢,同時也更加期待它的發展。