當前位置: 華文世界 > 科技

采用「MyTwins.ai」數位分身,「開學季 Ai 第一課」為直播行業帶來了新場景|早期計畫

2024-09-02科技
9月1日,「阿裏雲-雲工開物」邀請了4位元院士/教授,用「自己的數位分身」給大家講授AI相關的知識。此次「開學季 Ai 第一課」采用的技術,是由36氪此前曾報道 的「數位生命技術領域創新企業「MyTwins.ai」提供的。

張亞勤院士的數位人(采用MyTwins.ai數位分身技術生成) 圖片來源:MyTwins.ai

本次公開課導師包括圖靈獎得主John E. Hopcroft,中國工程院院士、清華大學智慧產業研究院(AIR)院長張亞勤,浙江大學人工智慧研究所所長吳飛,復旦大學電腦學院教授黃萱菁,阿裏雲高校合作部負責人李貝,向觀眾展示了教育領域可以用老師的數位分身來給學生講課。

作為數位分身直播產品的提供方,MyTwins.ai在年初與淘寶知名頭部主播陳潔Kiki合作後,持續進行了一系列技術叠代,現階段已經能夠讓數位分身以不同的體態、表情、拍攝角度「出鏡」,適應更多視訊及直播環境。

數位人直播帶貨的概念在近年來逐漸火爆,成為電商競爭新賽道的同時,也掀起了數位人技術新一輪的發展浪潮。而在AI技術的支持下,數位人主播以其低成本的優勢,吸引了大量的關註。

圖片來源:MyTwins.ai

早期很多數位人產品,只能讓數位人保持單一體態,根據口播內容做一些簡單的口型變化和上肢動作。MyTwins.ai相關負責人告訴36氪, 早期數位人受限技術而無法做到聲音與口型同步,比如發「阿」的聲音,嘴巴應該是張大的,數位人的嘴巴卻是閉著的。

「後來我們采用3D Flame技術對人臉建模,透過聲音驅動3D幾何表征形變,再使用3D Gaussian進行渲染。在口型、表情、姿態的精準度上,遠遠高於傳統的純2D技術路線所展現的效果。」

此外,為了讓使用者快速拿到生成好的數位分身,降低產品的使用門檻,MyTwins.ai研發了一套通用模型。

該通用模型由兩個模組構成:基於VAE的Audio2Motion(聲音到3D幾何驅動)演算法,在3D幾何空間上實作對口型、表情的驅動;3D->2D的人臉生成演算法,渲染出高解析度、口型貼合的數位人。

以前需要2-3分鐘的視訊素材,花費數小時的時間訓練數位人;在技術組合叠代後,MyTwins.ai已實作用30秒的視訊素材進行小樣本微調,訓練時間縮短到5分鐘,有效提升了效率。

舉例而言,在此次的「AI第一課」中,John E. Hopcroft數位分身建模的原視訊便只有30秒,且在原視訊解析度較低的情況下,數位人精準還原了「表情、口型」等面部微變化。

當然,數位分身若想適應更多場景,還有很長的路要走。對於MyTwins.ai而言,現階段直播帶貨依然是團隊主攻的研發方向之一。

為了能夠幫商家直播賣貨做成交,MyTwins.ai自研了一整套直播行業AI解決方案,特別是針對直播行業的主播大語言模型。

對於很多商家——尤其是沒做過直播電商的商家來說,從零搭建直播團隊的成本和風險都不小。如果初期效果差,人員薪資便是一筆不小的固定支出;效果好了,如果主播團隊選擇跳槽,那商家便又要從頭開始。

MyTwins.ai基於多年在直播領域的數據積累,研發了直播行業主播大語言模型。商家只要輸入「商品名稱、賣點」即可用頭部主播的講品方法論,由AI自動撰寫頭部主播風格的商品賣貨講稿,還能在直播間即時回復使用者的問題,促進成交轉化。

「從海量的直播數據中,我們構建了優質的直播行業數據集,微調開源LLM,並從講品風格、場景營造、深挖賣點、誘導消費等維度,讓模型學習到頭部主播帶貨的講品精髓。」MyTwins.ai相關負責人表示。

艾媒咨詢數據顯示,2023年中國數位人帶動的產業市場規模和核心市場規模分別為3334.7億元和205.2億元,預計2025年將分別達到6402.7億元和480.6億元。隨著數位人產業的不斷成熟,對於商家來說,數位人直播將有機會成為賣貨的核心渠道。