當前位置: 華文世界 > 科技

訊飛星火多情感超擬人合成功能釋出,AI語音更具「人情味」

2024-04-29科技

說起語音合成技術,你會想到什麽場景套用?很多人小時候玩過的「錄音娃娃」,其實就是語音合成技術的初級類別,而火遍全網的「會說話的湯姆貓」,透過可愛卡通形象學你說話,也讓語音合成技術上升到有趣的層面。但站在行業的視角,能否讓語音合成技術擁有更深刻的場景套用?4月26日,訊飛星火V3.5春季上新交出了一份高水平答卷。

「訊飛星火」是科大訊飛旗下通用大模型,也是國內首個全國產算力訓練的大模型。此次訊飛星火V3.5新版一口氣帶來了長文本、長圖文與長語音三大能力升級,並且語音大模型也全新升級,帶來了「多情感超擬人合成」與「一句話聲音復刻」兩大功能。

如何讓語音合成由「千篇一律」前進演化到「千人千面」?這需要強大的技術儲備做支撐。在語音合成領域,Blizzard Challenge是極具影響力的國際賽事,科大訊飛自2006年參賽奪冠以來,就開啟了連續14年的冠軍之路。這次訊飛星火V3.5新版正選的多情感超擬人合成功能,將全自然語音互動體驗帶上了新的台階。

根據釋出會上訊飛研究院院長劉聰的演示,這項功能讓人機對話變得不再生硬和冰冷,AI女聲被賦予撒嬌、安慰等擬人化的情感表達,同時傳遞出困惑、高興、難過等外化情緒。當劉聰告知「五一」要看演唱會後,AI充滿感情地回答道「我都能夠想到你在現場歡呼的樣子,哈哈,我好羨慕啊」,像是朋友間的一場對話,陪著你一起高興。

整個演示都感覺是在與真人對話,抑揚頓挫悅耳入心,語氣助詞恰到好處。根據PPT資料顯示,訊飛星火多情感超擬人情緒表達的可感知度達到了85%以上,無限接近於真人的口語表達,生動而富有情感,語氣夾雜情調。另外多情感超擬人合成還支持「多語種智能語音」,早在2020年科大訊飛60個語種的語音辨識、轉譯和37個語種的語音合成就超過了谷歌與微軟,達到國際領先水平;而在2024年1月份,科大訊飛釋出的訊飛星火V3.5,首批37個主流語種的語音辨識效果已超過Open AI語音大模型Whisper V3。

而基於多情感超擬人合成,還帶來了另一項實用的功能,那就是「一句話聲音復刻」。當年高德地圖首創的明星原聲播報功能,其實就是基於訊飛的語音合成技術,只不過當時誌玲姐姐需要錄制一個禮拜的聲音。過了幾年,隨著訊飛語音合成技術的升級,再錄制郭德綱原聲縮短至1小時。現如今,你只要建立「發音人」,再朗讀一段指定文本,人人都可以利用一句話聲音復刻功能,輕松復刻出自己的聲音。

別以為這是一種炫技的功能,它將能夠在家庭親子場景中扮演重要角色。試想一下,當孩子習慣了每晚在你童話故事的朗讀聲中熟睡,一旦你出差該怎麽辦?現在只要利用訊飛星火的一句話聲音復刻功能,就能讓AI還原你的聲音,讓孩子在你聲音的陪伴下安然入睡。每逢節假日,可愛的孫子看望爺爺奶奶,給他們讀書說報,讓老人內心暖暖的,一旦孫子回家二老內心總是空落落的。如今有了一句話聲音復刻,AI可以模仿聰明可愛的小孫子的聲音給老人讀書說報,讓聲音的陪伴溫暖而持久。

從技術叠代角度,一句話聲音復刻可以視為多情感超擬人合成技術的進階,賦予聲音個人化表達。這個功能的上新,不僅意味著AI豐富的情感表達邁入新台階,也將會在科技助老、陪伴機器人等方向產生正向價值。「我們希望在安全可控的前提下,能夠帶給社會更有溫度的人工智能體驗,能夠真的幫助到那些特別需要幫助的人,今天這個世界更需要有溫度的科技。」科大訊飛董事長劉慶峰說道。

免責聲明:此文內容為本網站轉載企業資訊,僅代表作者個人觀點,與本網無關。所涉內容不構成投資、消費建議,僅供讀者參考,並請自行核實相關內容。

原文轉自:鹹寧新聞網