當前位置: 華文世界 > 科技

一張照片就能生成超擬人數位人,訊飛智作展示AI黑科技

2024-10-26科技

就在昨天,科大訊飛先發超擬人數位人,在1024開發者節釋出會上,其真實程度讓人驚呼,外面的世界已經發展成這樣了嗎?筆者從未想過用一張照片,竟然直接上傳就能生成專屬數位人形象。

作為先發「超擬人數位人」,這次功能已經在科大訊飛旗下的訊飛智作產品上開通了內測通道。只要透過內測二維碼,即可申請構建超自然的專屬數位人形象。

要知道,過去的數位人客製,一直面臨著三大挑戰:費用高;客製周期長;互動存在延遲。

而這一次,只要在訊飛智作上傳一張照片,你的專屬數位人便躍然眼前。

那麽問題來了,這次訊飛智作內測開放的「超擬人數位人」到底有什麽突出亮點?

直觀感受是:我們即將迎來人人擁有數位人的時代。

便捷個性客製,打造專屬形象

僅需上傳一張照片,就能瞬間擁有自己個人化虛擬形象的體驗,這是筆者此前從未想過的。這或許是數位人從B端走向C端的關鍵技術創新。

當下數位人隨處可見,雖然形象及使用場景逐漸多元,但公版形象在個人化上仍存在不足。

客製一個個人化的數位人往往需要長時間的數據采集流程,而且在錄制過程中對於客製者的表情變化和動作表達有較高的要求。

而在此次訊飛智作開通的超擬人數位人的內測通道裏,哢嚓拍攝一張照片,大模型就能自動生成驅動口唇、表情、動作,並充分匹配上傳文本。

以往的數位人客製數據采集需要專門的制作團隊制作數月,在這之後,還需要專業的技術人員專門進行調優。而訊飛智作內測通道裏,由一張照片就能生成的超擬人數位人極大縮短了數位人客製的周期,讓普通人擁有專屬的數位形象成為可能。

訊飛智作小程式內測頁面

面部情感豐富,表達更靈動

此前,筆者總是感覺數位人表情很生硬。面對問題,數位人似乎在對著我們讀課文。但這次在訊飛智作上測試的超擬人數位人,表情變化及情緒反饋讓人眼前一亮。

無論問她什麽,超擬人數位人都做到變化自如,基於問題變化,情緒及表情反饋仿佛如真人一般。在1024開發者節釋出會現場,超擬人數位人還可以現場賣萌。當聽說自己剛剛的表現被幾百萬人看到,她會立刻呈現吃驚表情。

超擬人數位人1024訊飛開發者節現場賣萌

為了搞清這次超擬人數位人為什麽如此通人性,筆者查閱很多資料後發現,主要是因為它采用的是大語言模型(LLM)的多模態互動技術,貫穿文本、語音和數位人,這種情感貫穿的多模態互動不僅是口唇同步,更能感知情緒波動,讓表達更靈動。

即時可互動,響應時間快

不知道大家有沒有發現,之前我們和很多數位人交流溝通的時候能把人氣個半死。有時候它聽不到你的聲音,有時候又答非所問。如果你在它說話的時候突然打斷它,它甚至會已讀亂回。

但這次在訊飛智作內測的超擬人數位人,互動的快速響應著實讓人眼前一亮。即使隨時打斷、插話,超擬人數位人依舊能做到秒回,這個快速反應能力,感覺勝過好多真人。

在1024訊飛開發者節釋出會現場,訊飛研究院院長劉聰嘗試讓超擬人數位人針對鏡頭辨識的化妝品給一些意見,超擬人數位人立刻辨識眼霜的品牌、功效,甚至在劉聰院士選擇買大瓶裝的時候還能立刻提出「那可不是眼霜哦,那是人參面霜,用來滋潤面部皮膚的」。

超擬人數位人1024訊飛開發者節現場片段

此次訊飛超擬人數位人采用了動作表征抽取技術,將視訊維度進行了有效壓縮。正是這種技術的加持與創新,才讓此次在內測體驗時感覺和一個朋友在一個空間沈浸交流。

而這次在訊飛智作上進行內測體驗一張照片生成超擬人數位人時,筆者還順帶體驗了訊飛智作整體產品。除了客製自己的數位人形象,還有一句話復刻聲音、AI配音、AIGC內容生產等諸多功能,可以高效解決很多需要音視訊的場景需求,期待之後會有更多的技術創新。