當前位置: 華文世界 > 科技

只需15秒原聲,AI就能復刻!如何保證被安全使用?

2024-05-12科技
只需生前15秒的原聲素材,AI就能復刻逝者的聲音並以語音回信的方式陪人談心。5月11日,34歲的武漢市更好創新科技有限公司創始人徐祥鵬告訴記者,自己研發的AI產品「宛在」上線不到一周就有了千余使用者,客製生成一分鐘的音訊只需9.9元。
武漢市更好創新科技有限公司創始人徐祥鵬。
素材時長不能少於15秒
從微博上得知「宛在」上線後,「90後」湖南女孩小玉第一時間就為已故的外婆註冊了帳號。她手頭只有一段約20秒外婆生前的聲音素材,但系統始終判定素材不合格,無法訓練聲音模型。
公司營運總監朱文露拿到了小玉送出的聲音素材,發現這段素材非常雜亂,既有多人對話,同時還有切菜聲、車鳴聲等雜訊,AI無法準確辨識。
借助專業軟體,朱文露最後提取出了外婆聲音清晰的部份,但時長只有5秒。經過測試後,她發現生成的聲音模型效果並不好,建議小玉想辦法搜集更多外婆的聲音素材。
「菜沒擇幹凈,味道就不好。」徐祥鵬告訴記者,使用者送出的聲音樣本就是原材料,這個樣本的品質高低決定了後期AI建立聲音模型的效果。
用來訓練AI的素材越多,復刻出來的聲音就越像,但不少人會遇到小玉這樣的問題,難以找到足夠的音訊素材。徐祥鵬做過大量測試,發現要滿足使用者的復刻需求,素材時長不能少於15秒,否則復刻效果就在「開盲盒」。
「15秒時長是指‘幹凈’的音訊。」朱文露說,如果音訊雜訊多就必須降噪處理。如果內容是一段對話,就必須提取出所需要的聲音。使用者可以自己完成,也可以向客服付費求助。
朱文露向記者展示了兩段音訊,一段是人在街頭跟人聊天的聲音,各種聲音夾雜。另一段經過聲音提取和降噪處理,說話人的聲音清晰連貫。
AI「學說話」至少要訓練20輪
「宛在」同步上線的有小程式和APP。它真的能讓逝者「音容宛在」嗎?11日,記者親身體驗了一把小程式。
小程式的使用並不難,使用者首先要按要求為已故親朋建立一顆星球,即一個帳號。完成帳號建立後,使用者按提示上傳時長為15秒的一段音訊,就可以進行AI聲音模型訓練。
徐祥鵬告訴記者,「宛在」是一款用於線上紀念的產品,只允許使用者為已故親人復刻聲音並用作紀念目的,使用者每次送出的音訊素材最好「吐字清晰、感情豐富」,便於AI更好辨識。
記者現場錄制了一段音訊,上傳後,AI首先自動檢測音訊品質,然後加入訓練佇列,分析、學習音訊的表達特點。
朱文露告訴記者,為了保證AI學習的效果,除了使用者送出的聲音樣本外,AI還會借助網上一些公共資料庫,學習其他人如何說話,這個訓練過程至少需要20輪,每次訓練需要1個小時左右,最後才能生成客戶專屬的聲音模型。
「很高興和你重逢,我現在擁有了一個新的聲音模型,與我寫信互動就能收到語音回信。」訓練完成後,系統自動生成了一段音訊,音訊中講話人的聲音與記者原聲幾乎一模一樣。
記者隨後寫了一封信,AI回了一封約200字的信,還可以用記者的聲音讀出信件內容,讀信時抑揚頓挫,感情充沛。
「使用者送出的原聲素材決定了聲音模型的風格。」朱文露解釋說,如果聲音主人的說話風格像讀詩,AI模型生成的音訊也是「詩歌風」。
目前已有註冊使用者千余人
徐祥鵬是十堰人,大學學的是金融,畢業後,他創辦了武漢市更好創新科技有限公司,開始接觸到線上紀念領域。2021年,他和合夥人上線了「思念星空」微信小程式,探索用AI服務人們緬懷已逝親人。
去年年底,他開始研發「宛在」這款產品。今年5月初,「宛在」正式上線,目前已有註冊使用者千余人,大部份都是年輕人。
2019年,徐祥鵬的奶奶去世,他想把奶奶生前的資料制作成一個視訊,結果發現他之前保存在手機裏的通話記錄都沒有了,這件事也成了他內心的遺憾。開發「思念星空」時,他發現很多人都有和他類似的遺憾:老人去世後保存下來的音訊資料很少,子女難以再聽到老人的聲音。他便萌生了「留下數據,不留遺憾」的想法,想研發出一款產品,幫大家儲存這些數據,再借助AI技術來「復活」聲音。
「宛在」目前采取自助模式,使用者可以免費使用,但一些音訊素材需要先期處理,使用者也可以付費向客服尋求幫助,訓練一個聲音模型收費169元,訓練兩個收費269元,訓練三個則為369元。
「我們鼓勵使用者自助使用。」徐祥鵬告訴記者,公司後期會推出一些增值服務,為有需要的使用者提供更好的服務體驗。而對於一般使用者而言,現有的免費服務已經能滿足他們的需要。「網上很多大公司的類似產品收費動輒數百元到數萬元,而我們只需9.9元。」徐祥鵬說。
(小標題)如何保證被安全使用?
徐祥鵬告訴記者,「宛在」的底層技術用的是網上的開放原始碼,但滿足使用者個性需求的技術都是自己研發的,公司有一個7人的研發小組。
徐祥鵬不滿足於AI只能進行一些簡單的日常問候或者簡單對話功能,他希望透過AI的推理能力,讓逝者與親人自如談心,他形象地稱之為「AI復活」。「這既是構建元宇宙的一部份,也是實作人們數據永生的基礎。」徐祥鵬說。
據介紹,「宛在」現在只推出了面向國內的中文版,他們正在著手研發面向海外的英文版,後期將會推出西班牙文版、韓語版等版本。
下一步,他會把圖片和聲音復刻結合起來,用聲音驅動圖片或視訊,讓生成的內容更加自然、真實,以達到更好的治愈效果。
技術門檻和成本門檻被拉低後,「復活」的聲音如何保證被安全使用?
徐祥鵬做了大量預防性措施。例如,「宛在」的使用者必須實名註冊並簽署相關協定。對於使用者上傳的資料,後台有專人稽核,防止有人將公眾人物的資訊送出上來。此外,他還引入了聲紋浮水印技術。AI生成的每段音訊都會打上可溯源的隱形聲紋浮水印,公司一旦接到投訴,就會馬上核實並停止服務。
(長江日報記者史強)
【編輯:王戎飛】
更多精彩資訊請在套用市場下載「大武漢」客戶端,未經授權請勿轉載,歡迎提供新聞線索,一經采納即付報酬。24小時報料熱線:027-59222222。此文版權歸原作者所有,若有來源錯誤或者侵犯您的合法權益,您可透過信箱與我們取得聯系,我們將及時進行處理。信箱地址:[email protected]