當前位置: 華文世界 > 科技

「AI時刻」為什麽Sora會被央視點名?

2024-02-20科技

前言

截止到發稿日,Sora尚未對外開放公測,也未提供內部測試的申請途徑。特別是在國內,使用者無渠道參與試用。全球範圍內,僅約1000名早期OpenAI使用者被授予許可權使用Sora。OpenAI對這些使用者生成的影片內容擁有所有權,並且嚴格禁止任何形式的公開釋出。

我們提醒廣大使用者提高警惕,不要被國內市場上可能出現的聲稱能夠提供Sora試用的收費服務所騙

正文

大年初七淩晨,我在老家被窗外小朋友發的二踢腳炸醒了,起床找水喝的時候看了一眼手機,彈出的訊息讓我驚訝到一夜未眠。對,沒錯,又是AI,又是OpenAI,又是一次劃時代的套用,它的名字叫做Sora。

圖片源自互聯網

Sora,OpenAI最新推出的文本轉影片模型,能夠僅憑使用者輸入的提示詞、文本指令或靜態影像,生成高達一分鐘的影片內容,且視覺質素絕佳。這些影片不僅展現了精細的場景復現,還有生動的角色表情和復雜的鏡頭動態。

圖片源自OpenAI官方Sora-Demo

圖片源自OpenAI官方Sora-Demo

盡管Sora不是首個將文本轉化為影片的(T2V)套用,但它在實際渲染效果及套用場景的豐富性方面,顯著超越了同領域的其他工具,對AI影片產業造成了「沈痛暴擊」。

圖片源自OpenAI官方Sora-Demo

根據OpenAI官網釋出的48個影片演示,Sora不僅在細節呈現上極為準確,還能創造出富有情感的角色、特定風格的活動,並精確再現主題背景下的復雜場景。更牛X的是,這款模型不僅能理解使用者的請求,還能洞察這些內容在現實世界中的存在方式。

圖片源自OpenAI官方Sora-Demo

圖片源自OpenAI官方Sora-Demo

這一進展標誌著,如果GPT能透過語言理解人類世界,Sora則擴充套件了這一理解能力到影片領域。

就在我驚訝OpenAI真的能藏核彈的時候,沒想到Sora被央視給點名了,自從GPT火爆以來,央視對於境外AI技術的報道卻一直相對保守。然而,Sora的出現卻讓央視也一反常態,不僅報道了它,還將其譽為"首個大型影片生成模型",可見Sora的實力給到全世界的震撼。

圖片源自於網絡

那麽Sora相較於AI影片領域的競品有什麽優勢,相比於Runway ML、Pictory.ai、NVIDIA的Video-to-Video Synthesis有哪些優勢呢?為什麽眾多AI影片從業者,一夜之間紛紛都說「馬上下崗」了呢?

圖片源自OpenAI官方Sora-Demo

關鍵之處在於,Sora邁向了AI技術的終極目標——建立一個「世界模擬器」(World Simulators)。與傳統的動態補幀技術不同,Sora是首款能夠深刻理解現實世界並將其轉化為影片內容的AI。這種對現實世界的高度理解和表達能力,是Sora獨有的特色。

圖片源自於Sora官方文件

其中最重要的一個點在我看來就是60秒生成的時長是真的誇張,這與前不久大受歡迎的Runway Gen-2 AI影片生成技術提供的最長16秒時長相比,實作了顯著的飛躍。這一增加的時長不單是算力上的勝出,更是表明了Sora在理解使用者提供的語意內容方面的自主性和創造力,使其能夠創作出更長的影片來深入解讀和表現給定的主題。

圖片源自OpenAI官方Sora-Demo

圖片源自OpenAI官方Sora-Demo

這是一個顛覆性的存在,區別於傳統AI影片生成工具所依賴的Diffusion技術——這類技術基本上是透過組合多個真實圖片來制作影片,而這樣生成的結果往往缺乏深層次的含義,更像是投影片式的展示。

然而,Sora采用的是LLM(Large Language Models)與Diffusion技術的融合,以transformer架構處理的時空塊(spacetime patches)作為其技術核心。這意味著Sora不僅能理解自然語言,解讀文本資訊,還能結合其對自然世界的洞察,從而跳出2D圖片的限制,模擬出接近真實世界的場景和體驗。

圖片源自於Sora官方文件

這一點有點像是大廚做菜,在烹飪前先將各種大小不一的食材(影片原始檔)切割成統一的小塊(patch表示)。然後,他會像打亂的拼圖一樣將這些小塊按照時間和空間的關系(時空要素)重新組織好,以確保烹飪出來的菜肴(影片內容)既符合食客的口味(使用者輸入)又有良好的擺盤(視覺呈現)。

AI生成

Sora展現的能力是超越的,令我印象深刻的是,其演示影片中有一段仿照【極品飛車】的場景轉換效果尤為震撼。在這一段影片裏,Sora不僅精準地捕捉並變換了原始影片場景中的季節,還巧妙地處理了光線追蹤,達到了接近完美的效果。

圖片源自OpenAI官方Sora-Demo

圖片源自OpenAI官方Sora-Demo

圖片源自OpenAI官方Sora-Demo

我們知道,NVIDIA曾投入幾代顯卡 的研發,為了在遊戲中實作逼真的光追效果。然而,Sora僅透過簡單的指令,無需傳統的場景構建和繁瑣的互動偵錯,就能夠輕易地演繹出震撼級別的真實光線效果。這種技術的進步,無疑是對傳統圖形渲染方法的一大超越。

圖片源自OpenAI官方Sora-Demo

雖然目前Sora並未進行公測,但僅僅透過放出的預告片,我們就可以分析出其落地的那一天對於視界行業的影響,首當其沖的便是影片制作行業,影片制作過程中原本需要耗費大量時間的劇本創作、場景搭建、拍攝和後期處理等環節,現在可以透過Sora的AI技術大幅簡化,甚至自動化。這可能導致影片制作變得更加低成本和高效率,但同時也會對從事影片制作的專業人士,如導演、攝影師、剪輯師和視覺效果的職業造成挑戰。

AI生成

想象一下,你是一個戶外婚紗攝影的廣告主,目標是創造一部短片,透過展示新人在世界各地的戶外景點拍攝婚紗照的浪漫場景,激發潛在客戶的購買欲望。按照傳統的制作流程,需要安排演員和攝制團隊環球旅行,逐一在那些著名的風景名勝進行實地拍攝。然而,有了Sora,這一切都變得簡單。只需輸入一條指令,Sora就能為您生成一部堪比實地拍攝的精美廣告短片,既節約了時間也減少了成本,不滿意還可以繼續調整。

AI生成

過去,面對缺乏實拍素材的報道,媒體機構往往依靠3D動畫來輔助解說,這一過程不僅成本高昂,而且耗時較長。現在,只需向Sora提供新聞的概要和事件經過,它就能迅速生成長達60秒或更長的影片。這樣不僅極大提高了新聞制作的效率,也增強了報道的吸重力和生動性。

AI生成

如果未來Sora可以落地套用,克服算力需求問題,面向更多的普通使用者,並可以進一步地根據使用者需求調整影片內容,比如換臉、換衣服、換場景等,並且能夠妥善處理與版權相關的商業運用問題,這將標誌著數碼影片制作進入了一個新紀元。當前Sora還要面對諸多的問題,其中最大的便是如何解決公用後的龐大的算力需求。

AI生成

這或許也會帶動雲端運算、分布式計算領域的再次蓬勃發展。

不管怎麽說,OpenAI的Sora讓我們看到了AGI來臨前的曙光,未來AI技術的成熟再結合VR AR器材的不斷演化,我們逐步走向一個前所未有的時代。在這個時代,每個人都可以借助AI技術,步入完全由自己想象設計的虛擬空間,這些空間不僅真實感十足,而且能夠即時響應自己的感覺和情緒變化,創造專屬於自己的AI世界。

AI生成