「天空」模型或引發新一輪AI「軍備競賽」

2024-02-21科技

參考訊息網2月21日報道據美國CNET公司網站2月19日報道，美國開放人工智慧研究中心(OpenAI)推出了一款名為「天空」(Sora)的文字生成視訊模型，它能夠提高生成式人工智慧創作的可能性。

與眾不同

與谷歌推出的文字生成視訊工具Lumiere一樣，「天空」模型的存取許可權是有限的。與Lumiere不同的是，「天空」模型可以生成長達1分鐘的視訊。

借助「天空」模型的推出，研究人工智慧語音生成器的美國十一實驗室公司在幾天後透露，該公司正在開發為視訊提供透過文字生成音效的工具。

隨著OpenAI、谷歌、微軟等公司將目光投向文字和影像生成之外的領域，尋求鞏固其在這個行業中的地位(預計到2032年，該行業的收入將達到1.3萬億美元)，並贏得自一年多前ChatGPT問世以來一直對生成式人工智慧感興趣的消費者的青睞，文字生成視訊模型在生成式人工智慧領域已經掀起了新一輪「軍備競賽」。

根據OpenAI於15日釋出的貼文，「天空」模型的存取許可權將提供給「安全團隊組員」(即在錯誤資訊、仇恨內容和偏見等領域的專家，他們將「透過承擔對抗性角色來測試這一模型」)以及視覺藝術家、設計師和電影制作人，以獲得來自創作專業人士的額外反饋。這種對抗性測試對於處理可能出現令人信服的「深度偽造」等現象尤為重要，後者是使用人工智慧建立影像和視訊的一個主要關註點。

除了從組織外部獲得反饋外，OpenAI還表示，它希望馬上分享這方面的進展，以便「讓公眾了解未來人工智慧將具有哪些能力」。

「天空」模型與眾不同的一點是，它能夠準確解釋長提示——包括一例長達135個單詞的提示。OpenAI於15日分享的樣本視訊顯示，「天空」模型可以建立各種角色和場景，從人、動物、毛茸茸的怪物到城市景觀、風景、禪意花園，甚至是淹沒在水下的紐約市。

模擬世界

這在一定程度上要歸功於OpenAI過去在多爾-E和GPT模型方面所做的工作。文本到影像生成器「多爾-E 3」軟體於去年9月釋出。CNET公司的史帝芬·尚克蘭稱其「比2022年的多爾-E 2提升了一大步」。OpenAI最新的人工智慧模型GPT-4 Turbo於去年11月釋出。

特別是，「天空」模型借鑒了多爾-E 3的字幕重配技術。OpenAI稱該技術可以為視覺訓練數據生成「極具描述性的字幕」。

OpenAI的貼文說：「‘天空’模型能夠生成包含多個角色、特定運動型別以及主體和背景準確細節的復雜場景。該模型不僅能夠理解使用者在提示中所要求的內容，還能理解這些事物在現實世界中是如何存在的。」

OpenAI分享的樣本視訊看起來確實非常逼真——也許除了近距離出現的人臉或遊動的海洋生物外。在其他情況下，你可能很難分辨真假。

該模型還能從靜態影像生成視訊、擴充套件現有視訊或填充缺失的幀，就像Lumiere所能做的那樣。

該貼文還說：「‘天空’模型為那些能夠理解和模擬真實世界的模型奠定了基礎，我們認為這種能力將成為實作AGI的一個重要裏程碑。」

AGI(即通用人工智慧)是一種更高級的人工智慧，它更接近人類的智慧，包括有能力執行更多的任務。元宇宙平台公司和「深層思維」公司也對達到這一基準表現出興趣。

弱點仍存

OpenAI承認，「天空」模型也有弱點，比如它難以準確描繪復雜場景的物理特性，也難以理解因果關系。

該貼文說：「例如，某人咬了一口餅乾，但在後續場景中餅乾沒有咬痕。」

如果有人需要用手比劃出「L」來區分左右，那麽他需要註意——「天空」模型也會把左右搞混。

OpenAI沒有透露該模型何時會廣泛上市，但指出公司希望首先采取「幾個重要的安全措施」。這包括滿足OpenAI現有的安全標準，即禁止極端暴力、性內容、仇恨影像、名人肖像和他人智慧財產權。

該貼文還說：「盡管進行了廣泛的研究和測試，但我們仍無法預測使用我們的技術會給人們帶來的所有裨益，也無法預測濫用這項技術會帶來的所有弊端。正因為如此，我們認為隨著時間的推移，從現實世界的使用中學習是建立和釋出日益安全的人工智慧系統的關鍵要素。」

十一實驗室公司19日在一篇部落格文章中表示，它使用了諸如「海浪拍打」、「金屬撞擊」、「鳥鳴」和「賽車引擎」等提示來建立音訊，並將這些音訊疊加到「天空」模型一些人工智慧生成的視訊中，以增加效果。

該公司未透露其文本生成聲音工具的釋出日期，但在部落格文章中表示：「大家的興奮和支持讓我們激動不已，我們迫不及待地想把它交到你們手中。」（編譯/楊雪蕾）