当前位置: 华文世界 > 科技

只需15秒原声,AI就能复刻!如何保证被安全使用?

2024-05-12科技
只需生前15秒的原声素材,AI就能复刻逝者的声音并以语音回信的方式陪人谈心。5月11日,34岁的武汉市更好创新科技有限公司创始人徐祥鹏告诉记者,自己研发的AI产品「宛在」上线不到一周就有了千余用户,定制生成一分钟的音频只需9.9元。
武汉市更好创新科技有限公司创始人徐祥鹏。
素材时长不能少于15秒
从微博上得知「宛在」上线后,「90后」湖南女孩小玉第一时间就为已故的外婆注册了账号。她手头只有一段约20秒外婆生前的声音素材,但系统始终判定素材不合格,无法训练声音模型。
公司运营总监朱文露拿到了小玉提交的声音素材,发现这段素材非常杂乱,既有多人对话,同时还有切菜声、车鸣声等噪声,AI无法准确识别。
借助专业软件,朱文露最后提取出了外婆声音清晰的部分,但时长只有5秒。经过测试后,她发现生成的声音模型效果并不好,建议小玉想办法搜集更多外婆的声音素材。
「菜没择干净,味道就不好。」徐祥鹏告诉记者,用户提交的声音样本就是原材料,这个样本的质量高低决定了后期AI建立声音模型的效果。
用来训练AI的素材越多,复刻出来的声音就越像,但不少人会遇到小玉这样的问题,难以找到足够的音频素材。徐祥鹏做过大量测试,发现要满足用户的复刻需求,素材时长不能少于15秒,否则复刻效果就在「开盲盒」。
「15秒时长是指‘干净’的音频。」朱文露说,如果音频噪声多就必须降噪处理。如果内容是一段对话,就必须提取出所需要的声音。用户可以自己完成,也可以向客服付费求助。
朱文露向记者展示了两段音频,一段是人在街头跟人聊天的声音,各种声音夹杂。另一段经过声音提取和降噪处理,说话人的声音清晰连贯。
AI「学说话」至少要训练20轮
「宛在」同步上线的有小程序和APP。它真的能让逝者「音容宛在」吗?11日,记者亲身体验了一把小程序。
小程序的使用并不难,用户首先要按要求为已故亲朋创建一颗星球,即一个账号。完成账号创建后,用户按提示上传时长为15秒的一段音频,就可以进行AI声音模型训练。
徐祥鹏告诉记者,「宛在」是一款用于在线纪念的产品,只允许用户为已故亲人复刻声音并用作纪念目的,用户每次提交的音频素材最好「吐字清晰、感情丰富」,便于AI更好识别。
记者现场录制了一段音频,上传后,AI首先自动检测音频质量,然后加入训练队列,分析、学习音频的表达特点。
朱文露告诉记者,为了保证AI学习的效果,除了用户提交的声音样本外,AI还会借助网上一些公共数据库,学习其他人如何说话,这个训练过程至少需要20轮,每次训练需要1个小时左右,最后才能生成客户专属的声音模型。
「很高兴和你重逢,我现在拥有了一个新的声音模型,与我写信互动就能收到语音回信。」训练完成后,系统自动生成了一段音频,音频中讲话人的声音与记者原声几乎一模一样。
记者随后写了一封信,AI回了一封约200字的信,还可以用记者的声音读出信件内容,读信时抑扬顿挫,感情充沛。
「用户提交的原声素材决定了声音模型的风格。」朱文露解释说,如果声音主人的说话风格像读诗,AI模型生成的音频也是「诗歌风」。
目前已有注册用户千余人
徐祥鹏是十堰人,大学学的是金融,毕业后,他创办了武汉市更好创新科技有限公司,开始接触到线上纪念领域。2021年,他和合伙人上线了「思念星空」微信小程序,探索用AI服务人们缅怀已逝亲人。
去年年底,他开始研发「宛在」这款产品。今年5月初,「宛在」正式上线,目前已有注册用户千余人,大部分都是年轻人。
2019年,徐祥鹏的奶奶去世,他想把奶奶生前的资料制作成一个视频,结果发现他之前保存在手机里的通话记录都没有了,这件事也成了他内心的遗憾。开发「思念星空」时,他发现很多人都有和他类似的遗憾:老人去世后保存下来的音频资料很少,子女难以再听到老人的声音。他便萌生了「留下数据,不留遗憾」的想法,想研发出一款产品,帮大家储存这些数据,再借助AI技术来「复活」声音。
「宛在」目前采取自助模式,用户可以免费使用,但一些音频素材需要先期处理,用户也可以付费向客服寻求帮助,训练一个声音模型收费169元,训练两个收费269元,训练三个则为369元。
「我们鼓励用户自助使用。」徐祥鹏告诉记者,公司后期会推出一些增值服务,为有需要的用户提供更好的服务体验。而对于一般用户而言,现有的免费服务已经能满足他们的需要。「网上很多大公司的类似产品收费动辄数百元到数万元,而我们只需9.9元。」徐祥鹏说。
(小标题)如何保证被安全使用?
徐祥鹏告诉记者,「宛在」的底层技术用的是网上的开放源代码,但满足用户个性需求的技术都是自己研发的,公司有一个7人的研发小组。
徐祥鹏不满足于AI只能进行一些简单的日常问候或者简单对话功能,他希望通过AI的推理能力,让逝者与亲人自如谈心,他形象地称之为「AI复活」。「这既是构建元宇宙的一部分,也是实现人们数据永生的基础。」徐祥鹏说。
据介绍,「宛在」现在只推出了面向国内的中文版,他们正在着手研发面向海外的英文版,后期将会推出西班牙文版、韩语版等版本。
下一步,他会把图片和声音复刻结合起来,用声音驱动图片或视频,让生成的内容更加自然、真实,以达到更好的治愈效果。
技术门槛和成本门槛被拉低后,「复活」的声音如何保证被安全使用?
徐祥鹏做了大量预防性措施。例如,「宛在」的用户必须实名注册并签署相关协议。对于用户上传的资料,后台有专人审核,防止有人将公众人物的信息提交上来。此外,他还引入了声纹水印技术。AI生成的每段音频都会打上可溯源的隐形声纹水印,公司一旦接到投诉,就会马上核实并停止服务。
(长江日报记者史强)
【编辑:王戎飞】
更多精彩资讯请在应用市场下载「大武汉」客户端,未经授权请勿转载,欢迎提供新闻线索,一经采纳即付报酬。24小时报料热线:027-59222222。此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您可通过邮箱与我们取得联系,我们将及时进行处理。邮箱地址:[email protected]