當前位置: 華文世界 > 科技

生產、互動、消費全鏈路升級,開啟「三智」影片新時代

2024-10-17科技

谷歌在2015年曾預測:「未來互聯網世界80%的內容將是以影片形式呈現的。」

未來已來!十年前的預判在今天幾乎全部實作。不僅如此,影片在工作生活中的滲透率不斷提升,並且過去一年中又有很多全新影片體驗來到我們身邊:

AIGC可以快速生產短劇,抖音聯合博納影業出品的【三星堆:未來啟示錄】一上線,便獲得了驚人的1.4億次播放量;

奧運會期間裸眼 3D 觀賽、VR 直播觀賽已成為現實,PICO 還為使用者全新打造了巴黎奧運會觀賽場景;

遊戲【黑神話:悟空】爆火,為全球玩家提供了一場虛實融合的中國文化盛宴,並且帶火了一眾線下旅遊打卡聖地;

在15日火山引擎與intel聯合舉辦的「影片雲技術大會」上,火山引擎總裁譚待就以數碼分身的形式出現,采用豆包語音合成模型和形象驅動演算法,達到真人級別的效果,整個演講過程看上去非常自然、逼真……

所有這些創新套用的背後,都是AI帶來的顛覆性變化。 當下,數碼影片時代已經向AI影片時代躍遷,使用者的需求也在從更流暢、更即時、更高畫質——升級為更智能、更互動、更沈浸。而要實作這些「更……」,依賴的就是生產、互動、消費等全鏈路的AI升級。

智能生產,多模態使能高品質

正如譚待所描述的,「影片正迅速崛起為人類的第二語言,其豐富的表達手段和效果遠超傳統文字,為我們提供了更多元、更生動的交流方式。」

隨著影片的重要性不斷提升,生產端的挑戰便是如何以更少的時間、更低的成本生產出更高質素的內容。

比如在電商領域,過去一年中短影片、直播、數碼人占比越來越高。好的內容可以吸引使用者的註意力,有效傳遞品牌資訊,並且激發消費者購買決策。顯然,「好內容」已經成為電商平台收益增長的第一生產力:優質內容高效快速生產從而拉動商品銷量,隨著商品營運規模大幅增長,行銷成本也在大幅下滑(如上圖)。

火山引擎的 多模態電商素材生成方案, 透過融合影像分析、AIGC(人工智能生成內容)、大模型處理、3D物體重建等先進技術,實作了商品氛圍圖、圖文影片、解說影片、AIGC影片和3D商品模型等多模態行銷素材的自動化生。

其帶來的效果是門檻大幅降低:商家只需要提供基礎資訊和一些簡單的多模態素材,就可以自動提取賣點、智能裁剪、自動生成影片。舉些例子,比如輸入乳飲產品的受眾、產地、營養成分,就可以自動生成一張首銷圖或是一段行銷影片;比如把服裝的圖片上傳,就可以自動生動模特上身的效果圖;比如上傳商品資訊之後,可以自動生成一系列內容匹配直播、短影片、貨架等不同場景需求。火山引擎的多模態電商素材生成方案,端到端自動化讓素材生成更智能、更快捷、更個性。

不止於電商,在短劇、賽事、演出等各種場景,也都有海量的自動化生成內容需求,比如短劇的宣發,演出的切片傳播,賽事的精彩瞬間等等。火山引擎影片雲推出的 多模態影片理解與生成方案, 依托多媒體實驗室自研的AI影片理解技術和AIGC技術,實作了影片高光的自動化提取和解說內容的生成。一場精彩的演出,可以快速切出多個短片,短劇可以快速生成多段不同視角的預告片,顯著縮短了制作周期,大幅降低傳播、宣傳的成本。

我們知道,聲音是影片中的關鍵要素,火山引擎影片雲提供的 跨語言同聲復刻直播服務, 可以實作自動配音、自動匹配字幕,還可以聲音復刻。比如在直播中可以使用豆包大模型Seed-ASR,除了能自動打出字幕,還支持中文、英語、日語、西班牙語、印尼語、葡萄牙語等多國語言輸出。在虛擬人的直播中,可以高度還原人聲特點、說話風格,還可以調整演講者口型,讓觀感更加自然。以「影片雲技術大會」活動為例,出現在講台上的「數碼人譚待」,無論是體態、表情還是聲音、語氣,都實作了對真人的高品質復刻,令人驚羨。

在新視界時代,生產端的挑戰是如何以更少的時間、更低的成本生成多角度、高資訊密度的優質內容。 火山引擎透過AI賦能,推出一系列解決方案從而推動了生產力變革:多模態內容根據使用者需求自動生成,智能生產讓創作者的創意得以充分釋放,多模態內容的生產與處理已經變得觸手可及。

智能互動變革,給AI加點「人味兒」

隨著去年大模型火爆之後,與AI互動的套用開始興起。比如手機中的智能助理已經成為使用者與手機溝通的主要方式,很多「I人」不喜歡線下社交,更喜歡與AI聊天機器人互動,現在我們撥打客服電話時很大比例都是機器人在提供服務。

舉個例子,AI陪伴已經開始走進日常生活,並且不僅局限文本交流,而是以數碼人化身的形式出現,實作了即時語音對話。作為AIGC原生產品,AI陪伴目前的市場熱度極高,已經是當下人工智能領域成長最快速的賽道之一。據數據網站Insightrackr統計,AI陪伴類產品從今年二季度開始(特別是5月到7月),每月的下載量較上月平均增加94%。

萌寶是一家國內領先的幼兒娛樂啟蒙音影片內容平台,為使用者提供兒歌、故事、繪本、語言、認知、科學、藝術等多個領域內容。兒童在平台上學習、娛樂的同時,高質素、有溫度的AI互動可以令使用者體驗大幅提升:新奇有趣的體驗讓他們更專註;個人化情感陪伴使其收獲理解與關懷;邊聊邊學的益智啟蒙互動使得學習效果更好。

平台一直想為兒童客製一個AI夥伴,這其中存在諸多挑戰:語音響應延時要低,遇到打斷情況要能自然處理,IP角色音色要貼合,要能真正理解兒童的需求並給出恰當的引導……

總體來講,AI陪伴領域存在技術難度高、成本高、效果難保障等痛點。萌寶最終選了 火山引擎AI即時互動方案。 方案透過火山引擎豆包大模型和影片雲RTC技術實作了語音數據的高效采集、處理和傳輸,並在伺服端為使用者提供了智能對話和自然語言處理的強大能力:毫秒級人聲檢測和打斷響應,以及絲滑穩定的端到端響應體驗。

萌寶對最終的套用效果十分滿意:即時響應,互動非常自然,即使交流中被孩子打斷也可以智能地續接,AI的音色親切且情緒飽滿,給孩子們帶來有感情還有趣的陪伴。最重要的是,系統能夠很精準地理解孩子的需求,提供相應的回復與引導。

這個解決方案源自豆包大模型與即時音影片技術,使用者不僅能用語音與AI進行交談,還能像平時說話一樣,在對話過程中適時打斷或插話,對整體交流的質素也不受影響。經過升級後的AI聲音相較以往而言更具表現力和感情色彩,對話也因此更自然、更真實、更流暢。

誠然,人與AI互動的實作並不難,但要做好卻非常難。首先要實作功能價值,就是要精準理解使用者的需求是什麽;其次還要提供情緒價值,在理解使用者意圖的基礎上,用最自然、最舒服的方式與使用者進行交流互動。

火山引擎對話式AI即時互動解決方案讓智能互動的生產更簡單,這也助力客戶可以針對不同場景不斷創新套用。目前這套方案已經普遍被企業用來客製智能助手、AI社交陪伴、兒童學習陪伴、AI教育、智能客服等服務。其中社交領域最為典型:使用者不僅能夠個人化客製專屬AI Agent,還能在精心設計的劇情中與AI角色深度互動。

顯然,互動端的智能化,給AI增加了不少的「人味兒」,AI變得越來越有溫度。

智能空間,跨時空使能消弭虛實縫隙

今年遊戲圈最熱的就是【黑神話:悟空】,其大受追捧的原因之一就是跨時空。

遊戲透過無人機實景三維重建等前沿技術,將真實場景的紋理與細節以1:1的比例精準還原到遊戲世界中,為全球玩家提供了一場虛實融合的中國風盛宴。使用者在遊戲中可以沈浸式觀賞風景與體驗文化,如果愛到極致還可以來一場說走就走的線下旅遊,在遊戲中被復刻的36個景點,甚至串起了「黑神話旅遊專線」。

實際上,2D、3D以及虛實融合的套用已經越來越多地出現在人們的工作生活中。從消費端來看,時空不再有邊界,虛實融合正在引發空間智能化的變革。最近,凱文凱利(KK)預言AI帶來的顛覆第一條就是:5000天後映像世界將會誕生。所謂映像世界是依靠AR、VR、AI等技術將現實和虛擬世界完美融合,我們會處在一種「沈浸式計算」的時代,到處都是數碼化,萬物皆可與AI相連。

針對空間智能化的需求,火山引擎影片雲推出了一系列方案:

  • 基於AI的3D生成方案,使用者僅需簡單上傳所建3D內容參考圖,自研系統就會自動生成關鍵視角和稀疏視角影像,快速構建出精確的3D幾何結構,與傳統手工3D建模相比,火山引擎AIG3D方案在效率、多樣性和操作成本等方面有明顯優勢;

  • 大場景重建方案,實作了對真實場景的高質素3D幾何構建與外觀重建渲染,廣泛套用於虛擬直播,VR直播等場景中,高效率的生成三維直播布景,增強了使用者的沈浸感體驗;

  • 6DoF直播方案,實作了高質素、超低延時的VR沈浸體驗,已成功套用於抖音VR直播,成為業內首個基於Apple Vision Pro的3D直播,為使用者帶來了震撼的XR體驗。

  • 基於這些解決方案,使用者已經切實體驗到智能空間的價值:從文化傳承的角度,火山引擎與山西高平二郎廟金代戲台、北京正乙祠戲樓等文物單位合作,將線下珍貴文物轉換為線上的永久數碼資源,並打造成虛實融合的沈浸式虛擬直播間。目前已經套用於抖音戲曲直播場景,提升主播直播過程的沈浸感和互動感,助力非遺傳承與保護。

    2024年奧運期間,PICO 還為使用者全新打造了會觀賽場景,借助於 VR 大屏,運動員的每一個動作、每一滴汗水、每一幀表情都近在咫尺,沈浸式的極致觀賽體驗讓使用者仿佛置身於賽場當中。英特爾與PICO團隊合作,依托英特爾領先的計算和渲染能力,借助火山引擎的解決方案,啟動了「何以華夏」專案,對珍貴的文化遺產進行虛擬再現和推廣,為使用者帶來沈浸式的文化體驗。

    顯然,隨著AI技術的發展,空間智能化得以實作,使用者不再受到時間、空間的限制,消費端的智能化正在消弭物理世界與數碼世界的縫隙。

    【結束語】

    隨著生成式AI、多模態大模型、全景直播、三維重建等技術進步,過去一年我們已經能夠明顯感受到科技飛躍帶來的變化,我們正在迎來一個AI加持下的「新視界」。

    從數碼影片時代到AI影片時代的前進演化,使用者需要更智能、更互動、更沈浸的體驗,這對生產端、互動端、消費端都提出全新的挑戰。只有透過AI全鏈路賦能實作「三智」,才能支持未來更多模式、套用的創新。

    火山引擎影片雲為全鏈路升級提供了強大且穩定的音影片技術基座,而英特爾則是強大算力的保障。英特爾®至強®伺服器強大的CPU處理能力,從即時的高達8K的影片處理能力,到基於 AMX 指令集的 AI 算力,從傳統的 CV 最佳化到 LLM 和 AIGC的最新套用支持,Xeon 伺服器始終為火山引擎提供了強有力的算力支撐和可靠服務。

    火山引擎影片雲+英特爾®至強®伺服器全鏈路全面賦能影片「新視界」。