15秒声音就能合成不同语言人声，OpenAI公开语音引擎预览版

2024-03-31科技

OpenAI语音引擎（Voice Engine）及其采用AI模型悄悄出现在用户眼前已有一段时间，现在该公司正式对外公开。

OpenAI语音引擎预览版29日首度亮相，这项功能是现有文本转语音API的延伸，背后采用模型也支持ChatGPT语音对话和「朗读」。语音引擎经过大约2年开发，将允许用户上传15秒语音样本，将这些语音数据合成更多版本，目前提供少数公司进行测试。

「我们会截取一段简短的音频和文本，产生与原说话者相符的逼真语音。」OpenAI产品开发成员Jeff Harris告诉国外媒体TechCrunch，模型同时分析从中截取的语音数据和要朗读的文本数据，可产生情感丰富且自然真实声音，与原始说话者非常相似。「处理完成后，所使用的音频会被删除。」

在OpenAI博客文章的范例中，一名英语用户的声音被翻译成西班牙语、华话、德语、法语以及日语，同时保留原说话者的口音，Jeff Harris称OpenAI方法可提供更高品质语音。

事实上，这不是全新技术，许多公司一直有可合成语音的产品，从创业公司ElevenLabs再到大型公司亚马逊、Google、微软等都有。不过谈到语音引擎背后的训练数据从何而来，Jeff Harris仅表示根据授权数据和公开数据组合训练而成。

包括OpenAI语音引擎在内AI工具能够合成不同语音，未来可能会对配音员、影音内容制作等领域带来许多影响，消费大众更担心这样的工具被不法分子用于诈骗、散播不实资讯。

语音引擎功能虽强大，但目前无法调整语音的口音、音调或说话速度。OpenAI也未公布推出进程，可让该公司有更多时间测试，防止功能遭到不法滥用。

（首图来源：pixabay）