當前位置: 華文世界 > 科技

15秒聲音就能合成不同語言人聲,OpenAI公開語音引擎預覽版

2024-03-31科技

OpenAI語音引擎(Voice Engine)及其采用AI模型悄悄出現在使用者眼前已有一段時間,現在該公司正式對外公開。

OpenAI語音引擎預覽版29日首度亮相,這項功能是現有文本轉語音API的延伸,背後采用模型也支持ChatGPT語音對話和「朗讀」。語音引擎經過大約2年開發,將允許使用者上傳15秒語音樣本,將這些語音數據合成更多版本,目前提供少數公司進行測試。

「我們會截取一段簡短的音訊和文本,產生與原說話者相符的逼真語音。」OpenAI產品開發成員Jeff Harris告訴國外媒體TechCrunch,模型同分時析從中截取的語音數據和要朗讀的文本數據,可產生情感豐富且自然真實聲音,與原始說話者非常相似。「處理完成後,所使用的音訊會被刪除。」

在OpenAI部落格文章的範例中,一名英語使用者的聲音被轉譯成西班牙語、華話、德語、法語以及日語,同時保留原說話者的口音,Jeff Harris稱OpenAI方法可提供更高品質語音。

事實上,這不是全新技術,許多公司一直有可合成語音的產品,從創業公司ElevenLabs再到大型公司亞馬遜、Google、微軟等都有。不過談到語音引擎背後的訓練數據從何而來,Jeff Harris僅表示根據授權數據和公開數據組合訓練而成。

包括OpenAI語音引擎在內AI工具能夠合成不同語音,未來可能會對配音員、影音內容制作等領域帶來許多影響,消費大眾更擔心這樣的工具被不法分子用於詐騙、散播不實資訊。

語音引擎功能雖強大,但目前無法調整語音的口音、音調或說話速度。OpenAI也未公布推出行程,可讓該公司有更多時間測試,防止功能遭到不法濫用。

(首圖來源:pixabay)