Voice Engine，OpenAI发布15s语音克隆技术

2024-03-31科技

来源：晓得智能

近日，全球知名的人工智能研究机构OpenAI对外分享了其小型预览项目的初步洞察和成果，该项目揭示了一种仅需15秒音频样本即可生成高度逼真且充满情感的自然语音技术-Voice Engine。

这项技术不仅能够生动模仿原始说话者的语音特征，更在教育、医疗、辅助沟通等领域展现出巨大的潜力和社会价值。

OpenAI于2022年末首次研发出Voice Engine模型，并将其应用于自家的文本转语音API，以及热门产品ChatGPT Voice和Read Aloud中。

尽管这一先进技术拥有广阔的应用前景，但OpenAI始终保持审慎态度，针对大规模推广采取了知情和谨慎的方法，以防范合成语音技术被滥用的风险。

公司希望通过发起一场关于负责任地部署合成语音的对话，探讨社会如何适应这些新兴能力。在早期应用阶段，OpenAI与一批值得信赖的合作伙伴进行了私密测试。

其中，教育科技公司Age of Learning利用Voice Engine为非阅读者和儿童提供更加丰富多样、富有感情色彩的阅读辅助服务。

不仅生成预设脚本的配音内容，还结合GPT-4实时创建个性化响应，与学生进行互动，极大地拓宽了教育资源的覆盖范围和受众群体体验。

此外，Voice Engine还在支持非言语人群方面展现出变革性作用，例如在Livox这样的替代沟通应用中，通过该技术赋能辅助沟通设备（AAC），使得存在语言障碍的人群能够使用独特且非机械化的多语种声音表达自我，切实提升了他们的生活质量。

在医学领域，Voice Engine亦展现了令人瞩目的成效。美国生命线医疗系统内的诺曼·普林斯神经科学研究所正探索将AI用于临床环境，尤其在帮助因肿瘤或神经系统疾病导致言语障碍的患者恢复声音方面取得突破。

医生们借助Voice Engine只需极短的音频样本，就成功帮助一位因血管脑瘤失去流利说话能力的年轻患者还原了原有的嗓音。

OpenAI深知合成人类声音的潜在风险，尤其是在政治选举等关键时期，因此高度重视并积极与来自政府、媒体、娱乐、教育、公民社会等领域的国际合作伙伴共同制定安全策略。

参与测试Voice Engine的伙伴们已同意遵循严格的使用政策，禁止未经许可或法律授权的情况下模拟他人或组织的声音。

同时，要求明确获得原始说话者的知情同意，并严禁开发者构建让用户自行创造自己声音的功能。

为了进一步保障公众权益，合作方必须清楚告知听众所听到的是AI生成的语音，并且OpenAI已实施一系列安全措施，包括对Voice Engine生成的所有音频添加水印以便追踪来源，以及主动监控其使用情况。

OpenAI坚信任何广泛部署的合成语音技术都应辅以声纹验证机制，确保原始说话者知情并同意将自己的声音用于服务，同时建立阻止创建与知名人物声音过于相似的「禁用声库」。

OpenAI也提倡逐步淘汰基于语音的身份验证作为银行账户和其他敏感信息的安全措施，推动保护个人声音在AI中的合理使用，加强对公众关于AI技术能力及局限性的教育。

尤其是识别欺骗性AI内容的能力，并加速开发和采用追踪视听内容来源的技术，确保用户始终能辨别与之交互的是真人还是AI。