只需15秒原聲，AI就能復刻！如何保證被安全使用？

2024-05-12科技

只需生前15秒的原聲素材，AI就能復刻逝者的聲音並以語音回信的方式陪人談心。5月11日，34歲的武漢市更好創新科技有限公司創始人徐祥鵬告訴記者，自己研發的AI產品「宛在」上線不到一周就有了千余使用者，客製生成一分鐘的音訊只需9.9元。

武漢市更好創新科技有限公司創始人徐祥鵬。

素材時長不能少於15秒

從微博上得知「宛在」上線後，「90後」湖南女孩小玉第一時間就為已故的外婆註冊了帳號。她手頭只有一段約20秒外婆生前的聲音素材，但系統始終判定素材不合格，無法訓練聲音模型。

公司營運總監朱文露拿到了小玉送出的聲音素材，發現這段素材非常雜亂，既有多人對話，同時還有切菜聲、車鳴聲等雜訊，AI無法準確辨識。

借助專業軟體，朱文露最後提取出了外婆聲音清晰的部份，但時長只有5秒。經過測試後，她發現生成的聲音模型效果並不好，建議小玉想辦法搜集更多外婆的聲音素材。

「菜沒擇幹凈，味道就不好。」徐祥鵬告訴記者，使用者送出的聲音樣本就是原材料，這個樣本的品質高低決定了後期AI建立聲音模型的效果。

用來訓練AI的素材越多，復刻出來的聲音就越像，但不少人會遇到小玉這樣的問題，難以找到足夠的音訊素材。徐祥鵬做過大量測試，發現要滿足使用者的復刻需求，素材時長不能少於15秒，否則復刻效果就在「開盲盒」。

「15秒時長是指‘幹凈’的音訊。」朱文露說，如果音訊雜訊多就必須降噪處理。如果內容是一段對話，就必須提取出所需要的聲音。使用者可以自己完成，也可以向客服付費求助。

朱文露向記者展示了兩段音訊，一段是人在街頭跟人聊天的聲音，各種聲音夾雜。另一段經過聲音提取和降噪處理，說話人的聲音清晰連貫。

AI「學說話」至少要訓練20輪

「宛在」同步上線的有小程式和APP。它真的能讓逝者「音容宛在」嗎？11日，記者親身體驗了一把小程式。

小程式的使用並不難，使用者首先要按要求為已故親朋建立一顆星球，即一個帳號。完成帳號建立後，使用者按提示上傳時長為15秒的一段音訊，就可以進行AI聲音模型訓練。

徐祥鵬告訴記者，「宛在」是一款用於線上紀念的產品，只允許使用者為已故親人復刻聲音並用作紀念目的，使用者每次送出的音訊素材最好「吐字清晰、感情豐富」，便於AI更好辨識。

記者現場錄制了一段音訊，上傳後，AI首先自動檢測音訊品質，然後加入訓練佇列，分析、學習音訊的表達特點。

朱文露告訴記者，為了保證AI學習的效果，除了使用者送出的聲音樣本外，AI還會借助網上一些公共資料庫，學習其他人如何說話，這個訓練過程至少需要20輪，每次訓練需要1個小時左右，最後才能生成客戶專屬的聲音模型。

「很高興和你重逢，我現在擁有了一個新的聲音模型，與我寫信互動就能收到語音回信。」訓練完成後，系統自動生成了一段音訊，音訊中講話人的聲音與記者原聲幾乎一模一樣。

記者隨後寫了一封信，AI回了一封約200字的信，還可以用記者的聲音讀出信件內容，讀信時抑揚頓挫，感情充沛。

「使用者送出的原聲素材決定了聲音模型的風格。」朱文露解釋說，如果聲音主人的說話風格像讀詩，AI模型生成的音訊也是「詩歌風」。

目前已有註冊使用者千余人

徐祥鵬是十堰人，大學學的是金融，畢業後，他創辦了武漢市更好創新科技有限公司，開始接觸到線上紀念領域。2021年，他和合夥人上線了「思念星空」微信小程式，探索用AI服務人們緬懷已逝親人。

去年年底，他開始研發「宛在」這款產品。今年5月初，「宛在」正式上線，目前已有註冊使用者千余人，大部份都是年輕人。

2019年，徐祥鵬的奶奶去世，他想把奶奶生前的資料制作成一個視訊，結果發現他之前保存在手機裏的通話記錄都沒有了，這件事也成了他內心的遺憾。開發「思念星空」時，他發現很多人都有和他類似的遺憾：老人去世後保存下來的音訊資料很少，子女難以再聽到老人的聲音。他便萌生了「留下數據，不留遺憾」的想法，想研發出一款產品，幫大家儲存這些數據，再借助AI技術來「復活」聲音。

「宛在」目前采取自助模式，使用者可以免費使用，但一些音訊素材需要先期處理，使用者也可以付費向客服尋求幫助，訓練一個聲音模型收費169元，訓練兩個收費269元，訓練三個則為369元。

「我們鼓勵使用者自助使用。」徐祥鵬告訴記者，公司後期會推出一些增值服務，為有需要的使用者提供更好的服務體驗。而對於一般使用者而言，現有的免費服務已經能滿足他們的需要。「網上很多大公司的類似產品收費動輒數百元到數萬元，而我們只需9.9元。」徐祥鵬說。

（小標題）如何保證被安全使用？

徐祥鵬告訴記者，「宛在」的底層技術用的是網上的開放原始碼，但滿足使用者個性需求的技術都是自己研發的，公司有一個7人的研發小組。

徐祥鵬不滿足於AI只能進行一些簡單的日常問候或者簡單對話功能，他希望透過AI的推理能力，讓逝者與親人自如談心，他形象地稱之為「AI復活」。「這既是構建元宇宙的一部份，也是實作人們數據永生的基礎。」徐祥鵬說。

據介紹，「宛在」現在只推出了面向國內的中文版，他們正在著手研發面向海外的英文版，後期將會推出西班牙文版、韓語版等版本。

下一步，他會把圖片和聲音復刻結合起來，用聲音驅動圖片或視訊，讓生成的內容更加自然、真實，以達到更好的治愈效果。

技術門檻和成本門檻被拉低後，「復活」的聲音如何保證被安全使用？

徐祥鵬做了大量預防性措施。例如，「宛在」的使用者必須實名註冊並簽署相關協定。對於使用者上傳的資料，後台有專人稽核，防止有人將公眾人物的資訊送出上來。此外，他還引入了聲紋浮水印技術。AI生成的每段音訊都會打上可溯源的隱形聲紋浮水印，公司一旦接到投訴，就會馬上核實並停止服務。

（長江日報記者史強）

【編輯：王戎飛】

更多精彩資訊請在套用市場下載「大武漢」客戶端，未經授權請勿轉載，歡迎提供新聞線索，一經采納即付報酬。24小時報料熱線：027-59222222。此文版權歸原作者所有，若有來源錯誤或者侵犯您的合法權益，您可透過信箱與我們取得聯系，我們將及時進行處理。信箱地址：[email protected]