当前位置: 华文世界 > 科技

15秒声音就能合成不同语言人声,OpenAI公开语音引擎预览版

2024-03-31科技

OpenAI语音引擎(Voice Engine)及其采用AI模型悄悄出现在用户眼前已有一段时间,现在该公司正式对外公开。

OpenAI语音引擎预览版29日首度亮相,这项功能是现有文本转语音API的延伸,背后采用模型也支持ChatGPT语音对话和「朗读」。语音引擎经过大约2年开发,将允许用户上传15秒语音样本,将这些语音数据合成更多版本,目前提供少数公司进行测试。

「我们会截取一段简短的音频和文本,产生与原说话者相符的逼真语音。」OpenAI产品开发成员Jeff Harris告诉国外媒体TechCrunch,模型同时分析从中截取的语音数据和要朗读的文本数据,可产生情感丰富且自然真实声音,与原始说话者非常相似。「处理完成后,所使用的音频会被删除。」

在OpenAI博客文章的范例中,一名英语用户的声音被翻译成西班牙语、华话、德语、法语以及日语,同时保留原说话者的口音,Jeff Harris称OpenAI方法可提供更高品质语音。

事实上,这不是全新技术,许多公司一直有可合成语音的产品,从创业公司ElevenLabs再到大型公司亚马逊、Google、微软等都有。不过谈到语音引擎背后的训练数据从何而来,Jeff Harris仅表示根据授权数据和公开数据组合训练而成。

包括OpenAI语音引擎在内AI工具能够合成不同语音,未来可能会对配音员、影音内容制作等领域带来许多影响,消费大众更担心这样的工具被不法分子用于诈骗、散播不实资讯。

语音引擎功能虽强大,但目前无法调整语音的口音、音调或说话速度。OpenAI也未公布推出进程,可让该公司有更多时间测试,防止功能遭到不法滥用。

(首图来源:pixabay)