「AI時刻」為什麽Sora會被央視點名？

2024-02-20科技

前言

截止到發稿日，Sora尚未對外開放公測，也未提供內部測試的申請途徑。特別是在國內，使用者無渠道參與試用。全球範圍內，僅約1000名早期OpenAI使用者被授予許可權使用Sora。OpenAI對這些使用者生成的影片內容擁有所有權，並且嚴格禁止任何形式的公開釋出。

我們提醒廣大使用者提高警惕，不要被國內市場上可能出現的聲稱能夠提供Sora試用的收費服務所騙

正文

大年初七淩晨，我在老家被窗外小朋友發的二踢腳炸醒了，起床找水喝的時候看了一眼手機，彈出的訊息讓我驚訝到一夜未眠。對，沒錯，又是AI，又是OpenAI，又是一次劃時代的套用，它的名字叫做Sora。

圖片源自互聯網

Sora，OpenAI最新推出的文本轉影片模型，能夠僅憑使用者輸入的提示詞、文本指令或靜態影像，生成高達一分鐘的影片內容，且視覺質素絕佳。這些影片不僅展現了精細的場景復現，還有生動的角色表情和復雜的鏡頭動態。

圖片源自OpenAI官方Sora-Demo

盡管Sora不是首個將文本轉化為影片的（T2V）套用，但它在實際渲染效果及套用場景的豐富性方面，顯著超越了同領域的其他工具，對AI影片產業造成了「沈痛暴擊」。

圖片源自OpenAI官方Sora-Demo

根據OpenAI官網釋出的48個影片演示，Sora不僅在細節呈現上極為準確，還能創造出富有情感的角色、特定風格的活動，並精確再現主題背景下的復雜場景。更牛X的是，這款模型不僅能理解使用者的請求，還能洞察這些內容在現實世界中的存在方式。

圖片源自OpenAI官方Sora-Demo

這一進展標誌著，如果GPT能透過語言理解人類世界，Sora則擴充套件了這一理解能力到影片領域。

就在我驚訝OpenAI真的能藏核彈的時候，沒想到Sora被央視給點名了，自從GPT火爆以來，央視對於境外AI技術的報道卻一直相對保守。然而，Sora的出現卻讓央視也一反常態，不僅報道了它，還將其譽為"首個大型影片生成模型"，可見Sora的實力給到全世界的震撼。

圖片源自於網絡

那麽Sora相較於AI影片領域的競品有什麽優勢，相比於Runway ML、Pictory.ai、NVIDIA的Video-to-Video Synthesis有哪些優勢呢？為什麽眾多AI影片從業者，一夜之間紛紛都說「馬上下崗」了呢？

圖片源自OpenAI官方Sora-Demo

關鍵之處在於，Sora邁向了AI技術的終極目標——建立一個「世界模擬器」（World Simulators）。與傳統的動態補幀技術不同，Sora是首款能夠深刻理解現實世界並將其轉化為影片內容的AI。這種對現實世界的高度理解和表達能力，是Sora獨有的特色。

圖片源自於Sora官方文件

其中最重要的一個點在我看來就是60秒生成的時長是真的誇張，這與前不久大受歡迎的Runway Gen-2 AI影片生成技術提供的最長16秒時長相比，實作了顯著的飛躍。這一增加的時長不單是算力上的勝出，更是表明了Sora在理解使用者提供的語意內容方面的自主性和創造力，使其能夠創作出更長的影片來深入解讀和表現給定的主題。

圖片源自OpenAI官方Sora-Demo

這是一個顛覆性的存在，區別於傳統AI影片生成工具所依賴的Diffusion技術——這類技術基本上是透過組合多個真實圖片來制作影片，而這樣生成的結果往往缺乏深層次的含義，更像是投影片式的展示。

然而，Sora采用的是LLM（Large Language Models）與Diffusion技術的融合，以transformer架構處理的時空塊（spacetime patches）作為其技術核心。這意味著Sora不僅能理解自然語言，解讀文本資訊，還能結合其對自然世界的洞察，從而跳出2D圖片的限制，模擬出接近真實世界的場景和體驗。

圖片源自於Sora官方文件

這一點有點像是大廚做菜，在烹飪前先將各種大小不一的食材（影片原始檔）切割成統一的小塊（patch表示）。然後，他會像打亂的拼圖一樣將這些小塊按照時間和空間的關系（時空要素）重新組織好，以確保烹飪出來的菜肴（影片內容）既符合食客的口味（使用者輸入）又有良好的擺盤（視覺呈現）。

AI生成

Sora展現的能力是超越的，令我印象深刻的是，其演示影片中有一段仿照【極品飛車】的場景轉換效果尤為震撼。在這一段影片裏，Sora不僅精準地捕捉並變換了原始影片場景中的季節，還巧妙地處理了光線追蹤，達到了接近完美的效果。

圖片源自OpenAI官方Sora-Demo

我們知道，NVIDIA曾投入幾代顯卡的研發，為了在遊戲中實作逼真的光追效果。然而，Sora僅透過簡單的指令，無需傳統的場景構建和繁瑣的互動偵錯，就能夠輕易地演繹出震撼級別的真實光線效果。這種技術的進步，無疑是對傳統圖形渲染方法的一大超越。

圖片源自OpenAI官方Sora-Demo

雖然目前Sora並未進行公測，但僅僅透過放出的預告片，我們就可以分析出其落地的那一天對於視界行業的影響，首當其沖的便是影片制作行業，影片制作過程中原本需要耗費大量時間的劇本創作、場景搭建、拍攝和後期處理等環節，現在可以透過Sora的AI技術大幅簡化，甚至自動化。這可能導致影片制作變得更加低成本和高效率，但同時也會對從事影片制作的專業人士，如導演、攝影師、剪輯師和視覺效果的職業造成挑戰。

AI生成

想象一下，你是一個戶外婚紗攝影的廣告主，目標是創造一部短片，透過展示新人在世界各地的戶外景點拍攝婚紗照的浪漫場景，激發潛在客戶的購買欲望。按照傳統的制作流程，需要安排演員和攝制團隊環球旅行，逐一在那些著名的風景名勝進行實地拍攝。然而，有了Sora，這一切都變得簡單。只需輸入一條指令，Sora就能為您生成一部堪比實地拍攝的精美廣告短片，既節約了時間也減少了成本，不滿意還可以繼續調整。

AI生成

過去，面對缺乏實拍素材的報道，媒體機構往往依靠3D動畫來輔助解說，這一過程不僅成本高昂，而且耗時較長。現在，只需向Sora提供新聞的概要和事件經過，它就能迅速生成長達60秒或更長的影片。這樣不僅極大提高了新聞制作的效率，也增強了報道的吸重力和生動性。

AI生成

如果未來Sora可以落地套用，克服算力需求問題，面向更多的普通使用者，並可以進一步地根據使用者需求調整影片內容，比如換臉、換衣服、換場景等，並且能夠妥善處理與版權相關的商業運用問題，這將標誌著數碼影片制作進入了一個新紀元。當前Sora還要面對諸多的問題，其中最大的便是如何解決公用後的龐大的算力需求。

AI生成

這或許也會帶動雲端運算、分布式計算領域的再次蓬勃發展。

不管怎麽說，OpenAI的Sora讓我們看到了AGI來臨前的曙光，未來AI技術的成熟再結合VR AR器材的不斷演化，我們逐步走向一個前所未有的時代。在這個時代，每個人都可以借助AI技術，步入完全由自己想象設計的虛擬空間，這些空間不僅真實感十足，而且能夠即時響應自己的感覺和情緒變化，創造專屬於自己的AI世界。

AI生成