15秒聲音就能合成不同語言人聲，OpenAI公開語音引擎預覽版

2024-03-31科技

OpenAI語音引擎（Voice Engine）及其采用AI模型悄悄出現在使用者眼前已有一段時間，現在該公司正式對外公開。

OpenAI語音引擎預覽版29日首度亮相，這項功能是現有文本轉語音API的延伸，背後采用模型也支持ChatGPT語音對話和「朗讀」。語音引擎經過大約2年開發，將允許使用者上傳15秒語音樣本，將這些語音數據合成更多版本，目前提供少數公司進行測試。

「我們會截取一段簡短的音訊和文本，產生與原說話者相符的逼真語音。」OpenAI產品開發成員Jeff Harris告訴國外媒體TechCrunch，模型同分時析從中截取的語音數據和要朗讀的文本數據，可產生情感豐富且自然真實聲音，與原始說話者非常相似。「處理完成後，所使用的音訊會被刪除。」

在OpenAI部落格文章的範例中，一名英語使用者的聲音被轉譯成西班牙語、華話、德語、法語以及日語，同時保留原說話者的口音，Jeff Harris稱OpenAI方法可提供更高品質語音。

事實上，這不是全新技術，許多公司一直有可合成語音的產品，從創業公司ElevenLabs再到大型公司亞馬遜、Google、微軟等都有。不過談到語音引擎背後的訓練數據從何而來，Jeff Harris僅表示根據授權數據和公開數據組合訓練而成。

包括OpenAI語音引擎在內AI工具能夠合成不同語音，未來可能會對配音員、影音內容制作等領域帶來許多影響，消費大眾更擔心這樣的工具被不法分子用於詐騙、散播不實資訊。

語音引擎功能雖強大，但目前無法調整語音的口音、音調或說話速度。OpenAI也未公布推出行程，可讓該公司有更多時間測試，防止功能遭到不法濫用。

（首圖來源：pixabay）