文生視訊亮相，世界是真實的嗎

2024-02-17科技

2月16日淩晨，OpenAI在其官網釋出了第一個文生視訊模型——Sora，可生成最長1分鐘的視訊。視訊呈現的景象足以讓人以為這是真實存在的世界。但實質上，這是AI生成的虛擬世界。

Sora生成的視訊從時長上達到了分鐘級，人和動物行為流暢自然，人與自然場景協調一致，細節逼真驚艷，如眨眼和睫毛的細微，以及人臉上的雀斑、皺紋清晰可見，絲毫不亞於高畫質攝影機攝制的三D影片。

為配合中國的龍年春節，Sora 生成的一處人們慶賀龍年的場景，大街上擠滿了舞龍燈的人和觀賞者，人山人海。而且，人物的行為舉止各有風貌，有舞龍者的輕松和喜悅，有追著舞龍觀看的好奇兒童，還有兩旁和後面摩肩擦踵的男女老幼，更有不少人掏出手機邊跟邊拍……這些場景幾乎就是現實場景的翻拍。另一段視訊是一位時尚女性走在雨後的東京街道上，城市的霓虹燈和動畫城市標牌模組屋與其穿著黑色皮夾克、紅色長裙和黑色靴子互相映照，特寫畫面不只突出了她戴著太陽鏡，塗著猩艷的口紅，更是凸顯了她臉上的雀斑和作為歲月銘印的皺紋。

其實，OpenAI公布的細節表明，Sora不只是根據文字提示（prompt）可以生成視訊（文生視訊）和圖片，還可以圖生視訊，即用一張圖片的提示生成視訊，生成而準確地把一張平面圖的內容和細節轉變成動態視訊，同時Sora還可以獲取現有視訊並對其進行擴充套件或填充缺失的幀，豐富和完善原有視訊。因此，Sora是三棲產品。從這個意義上看，Sora的創新是裏程碑式的。

現在，OpenAI的執行長阿特曼已經線上接單，也有一些視覺藝術家、設計師和電影制作人（以及OpenAI員工）獲得了Sora存取許可權。

Sora的出現表明，通用人工智慧（AGI）不僅離現實套用更近了一步，而且可以在更多的領域實作突破。2023年年底，【自然】雜誌的一篇文章預測2024年的10大科學進展，包知了人工智慧和聊天生成預訓練轉換器（ChatGPT）的突破，具有代表性的是，GPT-5將會問世，而且可能會比其前身GPT-4展示出更先進的功能，同時，GPT-4的競爭對手Gemini（另一個生成式AI工具，也是大語言模型）和其他AI工具也會推出。還有深度思考（DeepMind）人工智慧公司將在2024年釋出人工智慧工具Alpha折疊（AlphaFold）的新版本，將以原子精度模擬蛋白質、核酸和其他分子之間的交互作用，將為藥物設計和發現開辟新的可能性。

但是，意想不到的是，AI的創新者們轉了一個方向，推出了文生視訊，而且品質上乘。這意味著，生成式人工智慧（AIGC）朝著通用人工智慧的實用化和多樣化在發展，而且速度驚人。

文生視訊的效果逼真意味著，影視、多頻道網路（MCN）、動畫、美術、藝術等的從業人員的嚴冬來臨了，因為文生視訊的速度和效果可以迅速取代影視行業更多從業者的工作，創作的內容和產品更豐富多彩，產品和產值也會成倍增加。另一方面，行業的準入門檻將變得更低，讓演藝行業更為內卷，很多人將面臨失業。就連相關網站，如素材網站也將變得無關緊要，甚至會關門大吉。

文生視訊當然並不完美，很多畫面也與現實難以融入和銜接，如一些灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐，但突然間狼的數量變化了，一些憑空出現或消失。因此，影視行業、MCN要使用成熟和逼真的文生視訊還可能有一定時間，但其對行業的顛覆已經是目力可見。

盡管文生視訊有著廣闊的前景，但是其出現也意味著人工智慧對社會的威脅更近了一步。諸如Sora一類的生成式 AI產品會讓更多的人認為其看到的影像、音訊和視訊是真實的，也因而讓偽造和欺騙變得更簡單更易行。例如，許多人工智慧生成的與以色列-哈馬斯沖突有關的「深度偽造」影像和音訊在網路大行其道，美國一些公眾也接到了「深度偽造」的美國總統拜登的電話，知名歌手泰勒·斯威夫特AI虛假「不雅照」更是在網上瘋傳。

這意味著，每當人工智慧新產品出現，社會的監管就多一分責任。這其中，既要讓人工智慧研發公司遵守人工智慧的倫理規範，也意味著需要監管技術的突破。前者，已經有聯合國的【人工智慧倫理問題建議書】和各國的人工智慧規則，後者則需要同步的技術制衡。

一個最簡單的原則是，如果是人工智慧生成的產品，就應當在向全社會釋出時註明是AI產品，讓人們知曉這並非是現實和原創，而是人工智慧的產物。另一方面，在研發AI產品並釋出時，要求生成式 AI 研發人員在模型的輸出中嵌入隱藏訊號，從而生成浮水印，以便辨識人工智慧產品還是原創。

這些方式或許能讓人們既享受人工智慧生成產品帶給人們的效率和便捷，以及提升經濟價值，另一方面也盡量減少人工智慧對人和社會的威脅。