Sora震撼來襲，AI動畫以假亂真了嗎？專家：仍存硬傷

2024-02-20科技

近日，博主「AI瘋人院」在網路上釋出了一部利用AI技術生成的【西遊記】動畫短片。短片中展現了錯落有致的宮殿群、郁郁蔥蔥的花果山，還有山間雲卷雲舒、山石崩裂等動畫畫面，令眾多網友贊嘆不已。這段短片利用了AI規劃分鏡並繪制圖片，再輔以「圖片生產視訊」軟體讓圖片「動起來」。視訊作者馮先生在接受媒體采訪時表示，這段視訊如果人工制作至少需要半年，而自己在AI的幫助下用時一周就完成了。

值得一提的是，上述動畫短片並非由AI直接生成，在動作畫面上也有局限性，無法實作復雜的打鬥場景。然而，短視訊生成模型Sora的問世，讓AI根據指令直接生成復雜逼真的動畫成為可能。

台北時間2月16日淩晨，Sora「橫空出世」。這是OpenAI推出的一款能根據文字指令即時生成短視訊的模型。OpenAI曾在2022年11月30日釋出名為ChatGPT的全新聊天機器人模型，開啟了AI新時代。此番，OpenAI強勢推出又一王炸Sora，將帶來哪些改變？

談及OpenAI開年的這一震撼級釋出，多名業內專家在連線中向南都記者表達了一個共識，即目前的Sora功能讓人眼前一亮，但仍未完全前進演化。

眼見不再「為實」

深度生成視訊以假亂真，AI監管迎新挑戰

2月16日，OpenAI宣布推出文生視訊大模型「Sora」，迅速引發AI圈的關註。Sora展示的全新影像畫面精細生動，遠勝於此前生成式AI所生產的動畫內容。這款模型不僅能理解使用者的要求，還了解物體在物理世界中的存在方式。

中國人工智慧產業聯盟安全治理委員會專委會副主委、浙江大學教授潘恩榮認為，生成式AI從文本到影像再到視訊，是一個快速發展的過程。從目前Sora官方所釋出的樣片來看，其強大的影像視訊生成能力在某種程度上確實能達到以假亂真的效果。雖然客觀實踐並不會因人工智慧變得虛幻，但是人的認知發生了改變。

「可以認為我們改變了一些傳統的觀念，比方說‘眼見為實’。」潘恩榮告訴南都記者，這也會帶來社會生活的一系列問題，例如視訊證據要如何舉證，如何證明視訊證據的有效性等。「所以從人的認知的角度來講，這個‘真實’就不存在了。」

Sora問世前，已經出現過多起不法分子利用AI技術偽造視訊詐騙的事件。今年年初，有詐騙分子用AI假造香港特首李家超和馬斯克的視訊向香港市民推介一項投資計劃。為此，1月24日香港特區政府緊急釋出新聞公告，嚴正澄清。去年2月，浙江省一派出所接到報案。詐騙分子截取陳先生好友「阿誠」在社交平台已釋出的視訊，利用「AI換臉」技術，用合成的新視訊假冒好友與陳先生聊天，從而實施詐騙。

Sora如果實作大規模推廣，將大大降低普通人利用AI合成高品質視訊的難度。據中國科學院資訊工程研究所正高級工程師韓冀中介紹，Sora套用的技術與此前的深度偽造技術相互承接，又有所不同。深度偽造技術引起公眾註意是從2018年開始的，當時的人臉「換臉」技術主要是基於GAN（生成式對抗網路）。後來，Transformer和擴散模型被成功用在文本生成圖片和語音生成任務中，出現很多開源軟體及成熟的工具平台。普通人簡單學習之後就可以很快掌握並生成多媒體，比如讓「孫燕姿」唱歌、「郭德綱」說英文等，技術的進步大大降低了普通大眾進行自媒體創作的門檻。

在此前技術的基礎上，Sora采用Transformer與擴散模型結合的技術路線，能夠生成長達1分鐘的高畫質視訊，視訊中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。「Sora相比於之前Runway、Pika等的文生視訊產品，生成的視訊內容在三維空間的一致性、在時間上的連貫性上都取得很大的進步。」

鑒於Sora生成的視訊內容高度逼真，韓冀中指出，基於Sora的虛假資訊傳播可能在國際沖突、國內政治、社會、經濟安全等領域帶來新的挑戰。目前，國內外互聯網平台在內容稽核上都建立了針對政治謠言、色情、暴恐類資訊的檢測機制。因此，互聯網內容無論是不是偽造合成的，帶有明確特征的不當內容都能被較為有效地甄別和攔截。但是，對於難以判斷真假的資訊，尤其是涉及熱點輿情與名人明星的資訊，在第一時間進行深度分析與研判，及時阻斷其傳播，依然有許多問題需要解決。隨著未來AI生成內容越來越多，網路上將存在大量合成的文字、圖片和視訊，偽造合成的不一定是有害的，這就不僅需要在技術上改進，也需要建立更加完善的綜合治理體系，才能有效實作安全防禦。

科技跨越式發展？

套用場景有限，且仍有硬傷

其實，AI實作文字生成視訊並不是新鮮事。韓冀中告訴南都記者，Diffusion網路的提出，催生了跨模態內容生成，使AI可以用文字生成視訊，雖然生成的水平不及Sora。

而且，目前Sora的套用場景還很有限。「生成式AI從文本到影像世界，還沒有到跨越式發展的程度。」騰訊機器學習平台部專家工程師姚軍指出，目前Sora可以用來解決一些創意輔助的場景，但是不夠可靠，所以套用的場景是受限的。

同時，目前官方也公布了一些Sora的「硬傷」。姚軍解釋道，因為其模型不是依靠內在的物理仿真引擎，所以所生成的視訊常常顯得「不可靠」，會出現不符合真實物理規律的地方，這是當下這類依賴大規模數據驅動的大規模參數模型叠代的技術思路難以根除的問題。

根據韓冀中的介紹，針對視訊生成模型是否構建通用物理世界模擬器的一條有前景的道路,在學術界依然有不同觀點。比如Meta的Yann Lecunn在Sora推出之前，就一直認為LLM（大型語言模型）不是世界模型的正確路徑。「從Sora釋出的一些失敗視訊中，也看到目前Sora對物體互動場景的理解還有缺陷。」

近兩年可實作AGI？

「過於樂觀，但Sora大規模推廣在望」

針對此次Sora所帶來的討論，360創始人周鴻祎在社群網路上也分享了自己的看法。他認為，Sora的誕生意味著AGI（通用人工智慧）實作可能從10年縮短至一兩年。

談到Sora最大的優勢，周鴻祎表示，以往文字視訊軟體都是在2D平面上對圖形元素進行操作，可以把視訊看成多個真實圖片的組合，並沒有真正掌握這個世界的知識。但Sora產生的視訊裏，它能像人一樣理解坦克是有巨大沖擊力的，坦克能撞毀汽車，而不會出現汽車撞毀坦克這樣的情況，「一旦人工智慧接上網路攝影機，把所有的電影都看一遍，把YouTube和TikTok的視訊都看一遍，對世界的理解將遠遠超過文字學習。一幅圖勝過千言萬語，而視訊傳遞的資訊量又遠遠超過一張圖，這就離AGI真的不遠了，不是10年20年的問題，可能一兩年很快就可以實作。」

然而，在業內專家看來，認為AGI能在一兩年內實作的觀點過於樂觀。姚軍表示，「從原理上不難得出，這類模型不具備世界模型，沒有真正的一套知識框架內核，只是依賴數據中體現的‘大數原理’，與現實世界有一定的重合，但遠達不到‘世界模型’的門檻。」

潘恩榮也認為，AGI在一兩年內實作不能作為一種真實的預測。「因為我們講的通用人工智慧往往指的是‘人’作為主體所作用的能力，然而現在人工智慧能實作的事情，更像是‘物’的能力。」

對於公眾何時能夠大規模使用此類產品，姚軍告訴南都記者，「預計很快。」姚軍表示，在未見到嚴肅論文的情況下，僅憑感覺目前Sora是在吸取了很多LLM和文生圖的叠代經驗，部份解決了訓練數據的約束，據說是用到了遊戲引擎生成的視訊數據，同時，由於傳聞該模型的規模並不大，所以其成果預計可以很快進行套用落地。

但不論如何，有一件事毋庸置疑，模型後續效果的最佳化速度會越來越快，就像當時文生圖技術出現後一樣，一個季度一次升級，一年一個大變樣。

采寫：實習生陳奕帆南都記者呂虹