只需15秒原声，AI就能复刻！如何保证被安全使用？

2024-05-12科技

只需生前15秒的原声素材，AI就能复刻逝者的声音并以语音回信的方式陪人谈心。5月11日，34岁的武汉市更好创新科技有限公司创始人徐祥鹏告诉记者，自己研发的AI产品「宛在」上线不到一周就有了千余用户，定制生成一分钟的音频只需9.9元。

武汉市更好创新科技有限公司创始人徐祥鹏。

素材时长不能少于15秒

从微博上得知「宛在」上线后，「90后」湖南女孩小玉第一时间就为已故的外婆注册了账号。她手头只有一段约20秒外婆生前的声音素材，但系统始终判定素材不合格，无法训练声音模型。

公司运营总监朱文露拿到了小玉提交的声音素材，发现这段素材非常杂乱，既有多人对话，同时还有切菜声、车鸣声等噪声，AI无法准确识别。

借助专业软件，朱文露最后提取出了外婆声音清晰的部分，但时长只有5秒。经过测试后，她发现生成的声音模型效果并不好，建议小玉想办法搜集更多外婆的声音素材。

「菜没择干净，味道就不好。」徐祥鹏告诉记者，用户提交的声音样本就是原材料，这个样本的质量高低决定了后期AI建立声音模型的效果。

用来训练AI的素材越多，复刻出来的声音就越像，但不少人会遇到小玉这样的问题，难以找到足够的音频素材。徐祥鹏做过大量测试，发现要满足用户的复刻需求，素材时长不能少于15秒，否则复刻效果就在「开盲盒」。

「15秒时长是指‘干净’的音频。」朱文露说，如果音频噪声多就必须降噪处理。如果内容是一段对话，就必须提取出所需要的声音。用户可以自己完成，也可以向客服付费求助。

朱文露向记者展示了两段音频，一段是人在街头跟人聊天的声音，各种声音夹杂。另一段经过声音提取和降噪处理，说话人的声音清晰连贯。

AI「学说话」至少要训练20轮

「宛在」同步上线的有小程序和APP。它真的能让逝者「音容宛在」吗？11日，记者亲身体验了一把小程序。

小程序的使用并不难，用户首先要按要求为已故亲朋创建一颗星球，即一个账号。完成账号创建后，用户按提示上传时长为15秒的一段音频，就可以进行AI声音模型训练。

徐祥鹏告诉记者，「宛在」是一款用于在线纪念的产品，只允许用户为已故亲人复刻声音并用作纪念目的，用户每次提交的音频素材最好「吐字清晰、感情丰富」，便于AI更好识别。

记者现场录制了一段音频，上传后，AI首先自动检测音频质量，然后加入训练队列，分析、学习音频的表达特点。

朱文露告诉记者，为了保证AI学习的效果，除了用户提交的声音样本外，AI还会借助网上一些公共数据库，学习其他人如何说话，这个训练过程至少需要20轮，每次训练需要1个小时左右，最后才能生成客户专属的声音模型。

「很高兴和你重逢，我现在拥有了一个新的声音模型，与我写信互动就能收到语音回信。」训练完成后，系统自动生成了一段音频，音频中讲话人的声音与记者原声几乎一模一样。

记者随后写了一封信，AI回了一封约200字的信，还可以用记者的声音读出信件内容，读信时抑扬顿挫，感情充沛。

「用户提交的原声素材决定了声音模型的风格。」朱文露解释说，如果声音主人的说话风格像读诗，AI模型生成的音频也是「诗歌风」。

目前已有注册用户千余人

徐祥鹏是十堰人，大学学的是金融，毕业后，他创办了武汉市更好创新科技有限公司，开始接触到线上纪念领域。2021年，他和合伙人上线了「思念星空」微信小程序，探索用AI服务人们缅怀已逝亲人。

去年年底，他开始研发「宛在」这款产品。今年5月初，「宛在」正式上线，目前已有注册用户千余人，大部分都是年轻人。

2019年，徐祥鹏的奶奶去世，他想把奶奶生前的资料制作成一个视频，结果发现他之前保存在手机里的通话记录都没有了，这件事也成了他内心的遗憾。开发「思念星空」时，他发现很多人都有和他类似的遗憾：老人去世后保存下来的音频资料很少，子女难以再听到老人的声音。他便萌生了「留下数据，不留遗憾」的想法，想研发出一款产品，帮大家储存这些数据，再借助AI技术来「复活」声音。

「宛在」目前采取自助模式，用户可以免费使用，但一些音频素材需要先期处理，用户也可以付费向客服寻求帮助，训练一个声音模型收费169元，训练两个收费269元，训练三个则为369元。

「我们鼓励用户自助使用。」徐祥鹏告诉记者，公司后期会推出一些增值服务，为有需要的用户提供更好的服务体验。而对于一般用户而言，现有的免费服务已经能满足他们的需要。「网上很多大公司的类似产品收费动辄数百元到数万元，而我们只需9.9元。」徐祥鹏说。

（小标题）如何保证被安全使用？

徐祥鹏告诉记者，「宛在」的底层技术用的是网上的开放源代码，但满足用户个性需求的技术都是自己研发的，公司有一个7人的研发小组。

徐祥鹏不满足于AI只能进行一些简单的日常问候或者简单对话功能，他希望通过AI的推理能力，让逝者与亲人自如谈心，他形象地称之为「AI复活」。「这既是构建元宇宙的一部分，也是实现人们数据永生的基础。」徐祥鹏说。

据介绍，「宛在」现在只推出了面向国内的中文版，他们正在着手研发面向海外的英文版，后期将会推出西班牙文版、韩语版等版本。

下一步，他会把图片和声音复刻结合起来，用声音驱动图片或视频，让生成的内容更加自然、真实，以达到更好的治愈效果。

技术门槛和成本门槛被拉低后，「复活」的声音如何保证被安全使用？

徐祥鹏做了大量预防性措施。例如，「宛在」的用户必须实名注册并签署相关协议。对于用户上传的资料，后台有专人审核，防止有人将公众人物的信息提交上来。此外，他还引入了声纹水印技术。AI生成的每段音频都会打上可溯源的隐形声纹水印，公司一旦接到投诉，就会马上核实并停止服务。

（长江日报记者史强）

【编辑：王戎飞】

更多精彩资讯请在应用市场下载「大武汉」客户端，未经授权请勿转载，欢迎提供新闻线索，一经采纳即付报酬。24小时报料热线：027-59222222。此文版权归原作者所有，若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：[email protected]