Sora驚艷亮相，OpenAI首度推出AI視訊模型，根據文本生成逼真場景

2024-02-16科技

美國人工智慧研究機構OpenAI近日釋出了其第一個AI視訊模型Sora，這是繼GPT和DALL·E之後，OpenAI在2024年推出的又一重磅產品。Sora能夠根據文本指令或靜態圖片，生成高保真度的視訊，涵蓋多個角色、動作和背景細節，最長可達一分鐘。Sora的出現，不僅展示了OpenAI在視訊生成領域的領先地位，也為實作通用人工智慧（AGI）提供了一個重要的基礎。

Sora是一個基於文本條件的擴散模型，它使用了一種名為擴散機率模型的技術，可以從一堆雜訊中逐步生成清晰的視訊。Sora也使用了變換器架構，這是一種在多個領域展現了強大擴充套件性的人工智慧技術。Sora在一個壓縮的潛在空間中接受訓練和生成視訊，這個空間由一系列空間時間修補程式組成，類似於語言模型中的文本令牌。這種方式使得Sora能夠在不同的分辨率、持續時間和長寬比的視訊和影像上進行訓練和生成。

Sora的效果令人驚嘆，它不僅能夠生成逼真的場景，還能夠根據文本指令創造出既符合物理規律又充滿想象力的場景，例如，一朵巨大的人形雲在向大地發射閃電，或者一群毛茸茸的猛獁象在雪地上行走。Sora還能夠在單個視訊中建立多個鏡頭，保持角色和視覺風格的一致性。Sora還能夠學習和模擬攝影師和導演的表達手法，生成具有美感和情感的視訊。

Sora的釋出引起了業界和網友的廣泛關註和討論，有人稱贊Sora是視訊生成領域的一個裏程碑，有人擔心Sora會對視訊制作行業造成沖擊，也有人好奇Sora是否能夠理解和模擬真實世界的復雜性和多樣性。OpenAI表示，Sora是一個實驗性的產品，目前只對少數視覺藝術家、設計師和電影制作人開放，他們希望透過Sora探索視訊生成模型的潛力和局限，以及如何負責任地使用和分享這種技術。

#2月圖文動態激勵計劃#OpenAI還表示，Sora是構建能夠泛化模擬物理世界的通用模擬器的一個有前途的途徑，這是實作通用人工智慧的一個重要目標。通用人工智慧是指能夠像人類一樣在各種領域和任務中表現出智慧的人工智慧，這是人工智慧領域的一個終極夢想，也是一個極具挑戰和爭議的話題。OpenAI認為，Sora是通向通用人工智慧的一個重要的一步，也是一個值得探索和研究的方向。