「科技觀察」「眼見為實」或成過去，AI「文生視訊」如何改變未來？

2024-02-18科技

【環球時報報道記者樊巍劉揚劉彩玉】繼去年釋出的聊天機器人ChatGPT引領新一輪人工智慧（AI）浪潮之後，美國人工智慧公司OpenAI於16日又釋出了全新的生成式人工智慧模型Sora，它能夠透過文本指令建立最長達60秒的視訊，其逼真的視覺效果讓它在一夜之間「刷屏」，全球諸多媒體都對其冠以「顛覆性」的美名，甚至有網友感嘆「視訊行業全都要被洗牌了」。相關專家17日接受【環球時報】記者采訪時表示，短期來看，Sora確實會對影視等行業帶來顯著影響，但我們也不應神化其作用，長期來看，需要用心制作的作品，依舊很難僅用「芯」完成。

「人類願賭服輸」

目前OpenAI還沒有釋出Sora的公開使用版本，但已經釋出的40多個演示視訊中包含有細節拉滿的場景、復雜的攝影機運鏡以及多個充滿情感的角色。OpenAI宣稱，Sora可以理解物體在物理世界中如何存在，並準確地解釋道具並生成引人註目的角色來表達充滿活力的情感。例如它可以根據文字描述「在東京街頭，一名時髦女士穿梭在充滿溫暖霓虹燈光和動感城市標誌的街道上」，生成一段包含有多鏡頭的高畫質晰視訊，包括從大模組屋切入對女士臉部表情的特寫，以及潮濕的街道地面反射霓虹燈的光影效果。這些視訊的真實度令人為之驚嘆，就連特斯拉CEO馬斯克也在社交媒體上對此表示「人類願賭服輸」。

美國有線電視新聞網（CNN）稱，盡管「多模態大模型」屢見不鮮，但Sora的制作長度和準確性使其與眾不同，它可能會對數位娛樂產業產生重大影響。

北京郵電大學人機互動與認知工程實驗室主任劉偉接受【環球時報】記者采訪時表示，Sora在短期內可能會對短視訊制作、影視行業以及視覺互動界面套用產生較為顯著的影響；從長期來看，這項技術會為自動駕駛、數位仿真、場景模擬等領域帶來改變。他表示，「我們不應神化Sora的作用，這項技術還很難取代傳統的影視行業制作流程，人類用‘心’拍出影視的作品，還很難僅用‘芯’來完成。」

中國影協科幻電影工作委員會執行秘書長馬賀亮接受【環球時報】記者采訪時表示，Sora的確讓影視圈「震驚」，但「主要是因為AI的發展速度遠遠超過了原來的預期」。他認為，短期內與概念設計、視訊預覽相關的崗位會在一定程度上受到Sora的影響，但它所能呈現的效果其實還達不到院線電影的級別，而且電影在創作上有主觀立場、視角和表達，觀看時有情感交流和情感投射，遠不是簡單生成一段視訊就能代替，因此AI作為技術輔助手段的確已經在改變電影制作方式與流程，能最佳化提升電影創作，但要說它能「顛覆整個電影行業」，還為時過早。

OpenAI也坦承，Sora還存在一些短板，例如模型在準確模擬復雜場景的物理特性方面可能會遇到一些困難，也可能無法周到地展現具有因果關系的事例。例如演示視訊中就出現了「有人咬了一口餅乾，但餅乾上並未出現咬痕」的明顯漏洞。

「眼見為實」或成過去

中國人工智慧專家吳甘沙17日接受【環球時報】記者采訪時表示，「Sora的影響往小了說，是文生視訊技術突破了一個數量級（時長比此前最好的水平提升了15-20倍），可以直接套用於短視訊、廣告行業等，對自動駕駛的場景和數據生成等都有正面影響；往大了說，它提供了理解、重建和模擬這個世界的可能性。如果大語言模型LLM像是一個小孩關在圖書館裏讀遍人間萬卷，Sora就是一個胸有丘壑的青年來到真實人間、行萬裏路，用現實和反饋來印證知識，並且能夠用視訊（模擬真實）的方式輸出知識和內容。一圖勝千言，圖和視訊的資訊傳遞損耗遠低於文字，從這個意義上來看，它未來沖擊的不僅僅是視訊、電影行業，也會影響書籍、知識、教育等一切資訊輸出的行業」。

新智元創始人楊靜17日接受【環球時報】記者采訪時表示，Sora是對OpenAI演算法套用領域的升維拓展，ChatGPT一年前已在自然語言互動領域取得重大突破，Sora則在AI視訊領域一舉登上行業巔峰。如果說ChatGPT模擬了人類的思維能力，Sora則是對整個物理世界的模擬。結合這些技術，如果未來虛擬世界與現實世界無縫融合，那麽人類的整個社會生活都會顛覆，包括智慧城市、軍事、影視遊戲、電商社交等多個領域。

但楊靜也提醒說，AI生成的假視訊存在泛濫風險，可能被用於詐騙犯罪。在Sora將AI生成視訊能力提升到近乎逼真的程度時，大家也要認識到「眼見為實」可能已成過去。CNN稱，OpenAI已關註安全性問題。該公司表示，未來將在Sora輸出的視訊中套用內容追溯技術，以鑒別是否為AI深度偽造視訊。

劉偉認為，如今AI技術在套用層面出現的一些亂象也凸顯這項技術是一把「雙刃劍」。隨著以大語言模型為代表的AI技術快速發展，會對傳統的倫理、法律以及生產方式等等方面都產生強大的沖擊，如果我們不加以監管，其一旦「泛濫成災」，必然會侵犯許多人的權益。但如果我們過早或者過嚴地加以監管，這必然又會限制這項技術的發展。「我認為監管之難主要體現在如何平衡‘管’與‘放’之間的關系，特別是在全球各國人工智慧飛速發展的時期。」劉偉表示，在實際操作的層面，我們既要對明顯會侵害大部份人權益的行為堅決加以限制，與此同時也應有「特區制」，允許有試錯的空間。

中美在AI領域差距拉大了？

Sora的出現也引發了國內許多業界人士的擔憂，「中美AI領域差距進一步拉大」成為Sora問世後的伴生話題。360集團創始人周鴻祎認為，「OpenAI訓練的Sora應該會閱讀大量視訊。一幅圖勝過千言萬語，而視訊傳遞的資訊量又遠遠超過一幅圖」，因此Sora的出現可能意味著通用人工智慧「真的就不遠了」，「不是10年20年的問題，可能一兩年很快就可以實作」。他表示，盡管國內大模型發展水平表面看已經接近GPT3.5，但實際上跟4.0比還有一年半的差距。從現在來看，OpenAI手上除了GPT5之外，可能還有一些「秘密武器」沒有亮出來。「中國和美國的AI差距可能不但沒有縮小，反而在加大。」

楊靜認為，Sora的震撼給我們三個提醒。第一是在演算法方面，OpenAI在攻破語言和視覺兩個堡壘後，即將向通用人工智慧發起最後挑戰；一旦實作超級人工智慧，加上生成式的AI世界，人類整體的權重都將降維；第二是在算力方面，OpenAI公布籌資7萬億美元建立芯片帝國的計劃，這筆巨款相當於美國GDP的1/4，或許將確立壟斷全球演算法與算力的AI霸主地位；第三是在數據方面，微軟此前為OpenAI提供了5000億視訊用於Sora訓練，未來還將有更多海量數據湧入，又有更多視訊生成。

吳甘沙表示，目前AI領域的競爭格局是OpenAI公司「一騎絕塵」。無論是谷歌的Gemini、創業公司Runway和Pika，還是中國的頂尖公司，都要奮起急追，不然差距會越來越大。他認為，中國要在AI領域追趕，首先是依靠人才，確保與世界頂尖水平的交流，鼓勵人才高密度聚集。「美國大模型相關的大公司加創業公司可能就是一二十家，而中國有幾百家，人才太分散」。其次是不能太短視，要允許失敗，給予足夠的發展時間。第三是不要過度監管，寬進嚴出，讓不完全成熟的技術透過不斷反饋得以提升。同時算力也是AI發展的稀缺資源，更不應該太分散了。

劉偉曾多次參加中美之間的人工智慧技術官方和學界層面對話，他告訴【環球時報】記者，在這些對話活動中有一個深刻感觸就是「中美學者對於兩國人工智慧技術發展的認識趨同」。大家普遍認為，美國在AI技術的軟體和硬體上更具領先優勢，而且這個優勢還有進一步擴大的趨勢；但在技術套用和數據收集方面，美國學者坦言中國更具優勢，而在AI領域，「大數據正好是輔助決策模型的重要組成部份」。

此外，在人機協同和人機融合領域，中美技術能力旗鼓相當。「這也是美國三番五次與中國開展人工智慧技術對話的原因之一，雙方實力相當，才有對話的意願，美國方面也很擔心我們在人機協同上實作重大突破，從而占據領先地位。」