Voice Engine，OpenAI釋出15s語音複制技術

2024-03-31科技

來源：曉得智能

近日，全球知名的人工智能研究機構OpenAI對外分享了其小型預覽專案的初步洞察和成果，該專案揭示了一種僅需15秒音訊樣本即可生成高度逼真且充滿情感的自然語音技術-Voice Engine。

這項技術不僅能夠生動模仿原始說話者的語音特征，更在教育、醫療、輔助溝通等領域展現出巨大的潛力和社會價值。

OpenAI於2022年末首次研發出Voice Engine模型，並將其套用於自家的文本轉語音API，以及熱門產品ChatGPT Voice和Read Aloud中。

盡管這一先進技術擁有廣闊的套用前景，但OpenAI始終保持審慎態度，針對大規模推廣采取了知情和謹慎的方法，以防範合成語音技術被濫用的風險。

公司希望透過發起一場關於負責任地部署合成語音的對話，探討社會如何適應這些新興能力。在早期套用階段，OpenAI與一批值得信賴的合作夥伴進行了私密測試。

其中，教育科技公司Age of Learning利用Voice Engine為非閱讀者和兒童提供更加豐富多樣、富有感情色彩的閱讀輔助服務。

不僅生成預設指令碼的配音內容，還結合GPT-4即時建立個人化響應，與學生進行互動，極大地拓寬了教育資源的覆蓋範圍和受眾群體體驗。

此外，Voice Engine還在支持非言語人群方面展現出變革性作用，例如在Livox這樣的替代溝通套用中，透過該技術賦能輔助溝通器材（AAC），使得存在語言障礙的人群能夠使用獨特且非機械化的多語種聲音表達自我，切實提升了他們的生活質素。

在醫學領域，Voice Engine亦展現了令人矚目的成效。美國生命線醫療系統內的諾曼·普林斯神經科學研究所正探索將AI用於臨床環境，尤其在幫助因腫瘤或神經系統疾病導致言語障礙的患者恢復聲音方面取得突破。

醫生們借助Voice Engine只需極短的音訊樣本，就成功幫助一位因血管腦瘤失去流利說話能力的年輕患者還原了原有的嗓音。

OpenAI深知合成人類聲音的潛在風險，尤其是在政治選舉等關鍵時期，因此高度重視並積極與來自政府、媒體、娛樂、教育、公民社會等領域的國際合作夥伴共同制定安全策略。

參與測試Voice Engine的夥伴們已同意遵循嚴格的使用政策，禁止未經特許或法律授權的情況下模擬他人或組織的聲音。

同時，要求明確獲得原始說話者的知情同意，並嚴禁開發者構建讓使用者自行創造自己聲音的功能。

為了進一步保障公眾權益，合作方必須清楚告知聽眾所聽到的是AI生成的語音，並且OpenAI已實施一系列安全措施，包括對Voice Engine生成的所有音訊添加浮水印以便追蹤來源，以及主動監控其使用情況。

OpenAI堅信任何廣泛部署的合成語音技術都應輔以聲紋驗證機制，確保原始說話者知情並同意將自己的聲音用於服務，同時建立阻止建立與知名人物聲音過於相似的「禁用聲庫」。

OpenAI也提倡逐步淘汰基於語音的身份驗證作為銀行賬戶和其他敏感資訊的安全措施，推動保護個人聲音在AI中的合理使用，加強對公眾關於AI技術能力及局限性的教育。

尤其是辨識欺騙性AI內容的能力，並加速開發和采用追蹤視聽內容來源的技術，確保使用者始終能辨別與之互動的是真人還是AI。