當前位置: 華文世界 > 科技

一張照片就能生成超擬人數碼人,訊飛智作展示AI黑科技

2024-10-26科技

就在昨天,科大訊飛正選超擬人數碼人,在1024開發者節釋出會上,其真實程度讓人驚呼,外面的世界已經發展成這樣了嗎?筆者從未想過用一張照片,竟然直接上傳就能生成專屬數碼人形象。

作為正選「超擬人數碼人」,這次功能已經在科大訊飛旗下的訊飛智作產品上開通了內測通道。只要透過內測二維碼,即可申請構建超自然的專屬數碼人形象。

要知道,過去的數碼人客製,一直面臨著三大挑戰:費用高;客製周期長;互動存在延遲。

而這一次,只要在訊飛智作上傳一張照片,你的專屬數碼人便躍然眼前。

那麽問題來了,這次訊飛智作內測開放的「超擬人數碼人」到底有什麽突出亮點?

直觀感受是:我們即將迎來人人擁有數碼人的時代。

便捷個性客製,打造專屬形象

僅需上傳一張照片,就能瞬間擁有自己個人化虛擬形象的體驗,這是筆者此前從未想過的。這或許是數碼人從B端走向C端的關鍵技術創新。

當下數碼人隨處可見,雖然形象及使用場景逐漸多元,但公版形象在個人化上仍存在不足。

客製一個個人化的數碼人往往需要長時間的數據采集流程,而且在錄制過程中對於客製者的表情變化和動作表達有較高的要求。

而在此次訊飛智作開通的超擬人數碼人的內測通道裏,哢嚓拍攝一張照片,大模型就能自動生成驅動口唇、表情、動作,並充分匹配上傳文本。

以往的數碼人客製數據采集需要專門的制作團隊制作數月,在這之後,還需要專業的技術人員專門進行調優。而訊飛智作內測通道裏,由一張照片就能生成的超擬人數碼人極大縮短了數碼人客製的周期,讓普通人擁有專屬的數碼形象成為可能。

訊飛智作小程式內測頁面

面部情感豐富,表達更靈動

此前,筆者總是感覺數碼人表情很生硬。面對問題,數碼人似乎在對著我們讀課文。但這次在訊飛智作上測試的超擬人數碼人,表情變化及情緒反饋讓人眼前一亮。

無論問她什麽,超擬人數碼人都做到變化自如,基於問題變化,情緒及表情反饋仿佛如真人一般。在1024開發者節釋出會現場,超擬人數碼人還可以現場賣萌。當聽說自己剛剛的表現被幾百萬人看到,她會立刻呈現吃驚表情。

超擬人數碼人1024訊飛開發者節現場賣萌

為了搞清這次超擬人數碼人為什麽如此通人性,筆者查閱很多資料後發現,主要是因為它采用的是大語言模型(LLM)的多模態互動技術,貫穿文本、語音和數碼人,這種情感貫穿的多模態互動不僅是口唇同步,更能感知情緒波動,讓表達更靈動。

即時可互動,響應時間快

不知道大家有沒有發現,之前我們和很多數碼人交流溝通的時候能把人氣個半死。有時候它聽不到你的聲音,有時候又答非所問。如果你在它說話的時候突然打斷它,它甚至會已讀亂回。

但這次在訊飛智作內測的超擬人數碼人,互動的快速響應著實讓人眼前一亮。即使隨時打斷、插話,超擬人數碼人依舊能做到秒回,這個快速反應能力,感覺勝過好多真人。

在1024訊飛開發者節釋出會現場,訊飛研究院院長劉聰嘗試讓超擬人數碼人針對鏡頭辨識的化妝品給一些意見,超擬人數碼人立刻辨識眼霜的品牌、功效,甚至在劉聰院士選擇買大瓶裝的時候還能立刻提出「那可不是眼霜哦,那是人參面霜,用來滋潤面部皮膚的」。

超擬人數碼人1024訊飛開發者節現場片段

此次訊飛超擬人數碼人采用了動作表征抽取技術,將影片維度進行了有效壓縮。正是這種技術的加持與創新,才讓此次在內測體驗時感覺和一個朋友在一個空間沈浸交流。

而這次在訊飛智作上進行內測體驗一張照片生成超擬人數碼人時,筆者還順帶體驗了訊飛智作整體產品。除了客製自己的數碼人形象,還有一句話復刻聲音、AI配音、AIGC內容生產等諸多功能,可以高效解決很多需要音影片的場景需求,期待之後會有更多的技術創新。