OpenAI的視訊生成器Sora：令人嘆為觀止的同時也引發擔憂

2024-02-17科技

OpenAI近日釋出了其首款AI文本到視訊生成器「Sora」，成果既令人震撼也引發了深思。周四，OpenAI介紹了這款引領潮流的文本到視訊生成器Sora，展示了AI模型令人難以置信的、逼真的視訊能力。目前，Sora向少數研究人員和創意工作者開放，他們將在公眾釋出之前測試該模型，這可能對電影行業和我們共同面臨的深度偽造問題帶來災難性的影響。

OpenAI在一篇博文中表示：「Sora能夠生成包含多個角色、特定型別的動作以及主題和背景的準確細節的復雜場景。」OpenAI並未透露Sora何時向公眾開放。

Sora是OpenAI首次涉足AI視訊生成領域，為公司的AI驅動的文本和影像生成器——ChatGPT和Dall-E——新增了一項功能。Sora獨特之處在於，它不僅僅是一個創意工具，更是一種「數據驅動的物理引擎」，正如Nvidia高級研究員Dr. Jim Fan所指出的那樣，Sora不僅僅在生成影像，它還在確定物體在其環境中的物理特性，並基於這些計算渲染視訊。

使用Sora生成視訊，使用者只需輸入幾句話作為提示，類似於AI影像生成器。你可以選擇真實感或動畫風格，幾分鐘內就能產生令人震驚的結果。

Sora是一種擴散模型，意味著它透過從一個模糊、充滿靜態的視訊開始，逐漸將其平滑為你看到的精修版本來生成視訊。Midjourney和Stable Diffusion的影像和視訊生成器也是擴散模型。但是，OpenAI的Sora似乎要更勝一籌。Sora生成的視訊更長、更具動態性，並且相互之間的流暢度更好。Sora仿佛在創造真實的視訊，而競爭對手的模型感覺像是AI影像的定格動畫。OpenAI再次以一款視訊生成器領先於其他AI領域，使競爭對手相形見絀。

Sora生成的視訊無疑令人難以置信。這些視訊如果由真實的電影攝制組或動畫師制作，將需要數小時。Sora很可能會像ChatGPT和AI影像生成器一樣，對電影行業造成沖擊，對編輯和設計世界產生震撼。這是一項既引人註目又在視訊創作者的工作安全方面引發恐懼的技術。

OpenAI表示，還有一些細節需要調整，包括對因果關系的理解不足。例如，Sora可能會生成一個人咬了一口餅乾的視訊，但之後餅乾可能不會有咬痕。OpenAI還表示，該模型缺乏空間意識，可能會混淆左右，不理解人或物體如何與場景互動。

安全也是主要關註點，特別是考慮到近幾個月AI技術被濫用制作深度偽造的情況。OpenAI表示，它將構建工具幫助檢測誤導內容，並套用現有技術拒絕有害的文本提示。

Sora既令人印象深刻又引發恐懼，很明顯，這款強大的AI視訊生成器可能會顛覆電影行業，並創造有害的輸出。想象一下，如果泰勒·斯威夫特的深度偽造變成了視訊。或者，如果喬·拜登向新罕布夏州選民的深度偽造電話變成了來自橢圓形辦公室的逼真資訊？Sora目前尚未向公眾開放，但這項強大技術的影響已經超前釋出。