當前位置: 華文世界 > 科技

從ChatGPT到Sora,阿特曼要做創世者?

2024-02-17科技

出品 | 何璽 排版 | 葉媛

ChatGPT之後,OpenAI再次讓人驚嘆!2月16日,阿特曼釋出OpenAI第一個視訊生成大模型Sora。

01

Sora能做什麽?它又為什麽讓業界如此震驚?

首先,Sora能夠圖文成片。文本成片方面,Sora能夠根據使用者提供的文本描述完整、準確生成長達60S的的高品質視訊。圖片成片方面,Sora不僅能夠從文本生成視訊,還能夠從現有的靜態影像開始,準確地動畫化影像內容,或者擴充套件現有視訊,填補視訊中的缺失幀。此外,Sora還能夠生成包含多個角色、特定運動型別以及主題精確、背景細節復雜的場景。要知道,再此之前,Pika,RunwayMl,Stable Video等AI視訊大模型一次性生成的視訊時長也就幾秒。

其次,Sora還有強大的語音理解能力和多鏡頭生成能力。語言理解方面,Sora能夠準確解釋提示並生成能表達豐富情感的角色。這使得模型能夠更好地理解使用者的文本指令,並在生成的視訊內容中忠實地反映這些指令。多鏡頭方面,Sora可以在單個生成的視訊中建立多個鏡頭,同時保持角色和視覺風格的一致性。這種能力對於制作電影預告片、動畫或其他需要多視角展示的內容非常有用。

第三,Sora有強大的物理世界模擬能力。Sora能夠模擬現實世界的一些人、動物和環境方面行為的能力。值得一提的是,這些內容的出現並沒有依賴於任何明確的3D建模、物體辨識等歸納偏差,而是純粹透過模型的尺度擴充套件而自然湧現的。

第三點有一點不好理解,璽哥簡單解釋一下,就是Sora已經初步具有了洞察物理世界執行規律的能力。比如人物人類「咬」食物後,食物會留下咬痕,畫家在畫布上塗抹會留下新的筆觸等。

除了以上能力,Sora還具有視訊到視訊編輯,圖片生成等能力。

02

山姆阿特曼要做創世者?

看到這裏,或許有人會說,Sora雖然強大,但也就是一個視訊生成模型而已,如果你也這樣認為,那就大錯特錯了。下面璽哥聊聊個人對Sora的一點看法。

目前我們看到的Sora生成的視訊還只是OpenAI放出來的demo,但從放出來的這些視訊可知,在洞察物理世界執行規律這件事情上,OpenAI已經找到了一條模擬真實世界的路徑。而從OpenAI官方文件透露的資訊來看,Sora並不只是做一個簡單的視訊生成工具,其根本目的是做一個物理世界模擬器,為真實世界建模。或許在不遠的未來,OpenAI將構建一個和真實世界一模一樣的」AI擬真世界「。這個」AI擬真世界「不僅有和真實世界一模一樣的山川河流等自然環境,也有一模一樣的物理執行規則。那時,人類或可以在這個擬真世界以百倍,千倍,萬倍的效率完成學習、成長。

當然,想要在這個」AI擬真世界「生活,你必須要有一個AI世界的身份,那就是人類的「數位人」分身。談到數位人分身,我們不得不提ChatGPT,因為他太像「人」了。ChatGPT不僅能夠透過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動。ChatGPT不僅能理解人的意圖,還有自己的思辨能力,能夠推理,能夠勝任許多人類工作。現在,隨著市集的釋出,ChatGPT更實作了對人類能力的分類。

現在,我們把Sora和ChatGPT結合起來看看,一個是要復制一個真實的物理環境,一個是要復制一個真實的人,真實的物理環境+人,不就等於一個新的世界嗎?

或許在不久的將來,我們的人生就將分成兩部份,一個是AI世界中的我們,一個是現實世界的我們。至於是AI世界中的我們更重要,還是現實世界中的我們更重要,就要看個人更適合在哪種環境中生活了。

到那個時候,或許阿特曼真的就成了「AI擬真世界」的創世者。