打造「多語種」名片 科大訊飛實作智能語音自主創新生態

2024-05-12科技

中安線上、中安新聞客戶端訊　在教室，老師透過遙控器和智能黑板直接對話；在家裏，空調、電視機等家電早已實作語音控制；駕車行駛在路上，一句指令就能操控汽車；會議室裏，多人發言都能立刻被清晰錄音並轉寫成文字、生成會議紀要……近年來，智能語音正潤物細無聲地改變著人們的生活，也創造了巨大的市場價值。

據國際數據公司IDC分析，預計到2030年，全球智能語音服務市場規模將達約731.6億美元，復合增長率27%。如此龐大的市場、如此關鍵的技術，中國如何不被「卡脖子」？以科大訊飛為代表的中國科技企業給出答案：自主創新。

中國的語音技術要掌握在中國人自己手裏

作為新一代資訊科技和人工智能產業的重要組成部份，智能語音不斷實作關鍵技術突破，精度、速度與智能化水平正在逐年提升。在實際套用環境的匹配度方面，相關技術產品已經可以滿足「混合語種」「復雜環境」「多人互動」等更為高端的任務需求。而在20世紀90年代，中國的智能語音技術和語音產業還是外國人的天下，微軟、谷歌、英特爾等企業紛紛在中國設研究院。如今的人工智能龍頭企業科大訊飛正是在這種情況下誕生。

據了解，科大訊飛創始人劉慶峰當時還是中國科學技術大學的學生，在導師王仁華的支持下，他和幾位同學立誌「中文語音技術要由中國人做到世界最好，中文語音產業要掌握在中國人自己手上」，於是創立了科大訊飛。

經過多年研究和實踐，科大訊飛不僅將中文語音技術做到最好，也將多語種技術做到全球領先。語音辨識的準確率達到98%，多人會議場景的說話人分離和辨識的準確率達到95%。2021年，科大訊飛在美國國家標準與技術研究院NIST發起的國際低資源多語種語音辨識競賽OpenASR中，獲得全部受限賽道的15個語種冠軍及7個語種非受限賽道冠軍。

科大訊飛的多語種技術爆發，是在2019年。當年10月8日，美國商務部突然宣布把科大訊飛、海康威視等8家中國人工智能企業列入實體名單。當時，科大訊飛已儲備了11種語音的多語種技術。被列入實體清單之後，科大訊飛啟動緊急預案，迅速攻關，進行40多種語種的研發。當時，華為也在被制裁，沒有多語種技術，華為手機等器材在超過75個國家/地區的銷售都受到極大影響。華為終端部門從全球66個供應商中經過細致甄選，最終選擇科大訊飛作為多語種供應商，保證了2020年3月的海外產品釋出。

如今，在中國智能語音市場，科大訊飛的市場占有率多年保持第一。以大熱的智能汽車行業為例，2023年，中國汽車出口量超過日本，躍居全球第一，而出海十強企業中，有8家都在和科大訊飛合作。科大訊飛多語種技術已經可以覆蓋全球60多個語種，訊飛智能車載語音系統覆蓋23個主要語種，搭載車型已銷往亞洲、歐洲、南美等地的60多個國家和地區。

語音大模型，要建立在自主可控的國產平台上

2006—2019年，連續十四年榮獲國際語音合成大賽冠軍；2016—2023年，連續4屆獲得國際多通道語音分離和辨識比賽CHiME冠軍；2021—2023年，連續三年獲得國際語音轉譯比賽IWSLT冠軍……

作為中國人工智能「國家隊」，科大訊飛代表中國取得了多項重要標誌性成果，逐漸構建起獨立的語音自主知識產權技術體系。

如今，大模型的出現發展給語音技術帶來了新的前進動力，結合大語言模型更精準的語意理解和更精細的描述能力，語音合成表現力、長時的語音辨識等語音各類任務也能快速突破效果的上限。

今年1月30日，科大訊飛釋出基於首個全國產算力訓練的訊飛星火V3.5，正式釋出星火語音大模型，首批37個主流語種效果超過OpenAI　Whisper　V3。4月26日，訊飛星火大模型V3.5再次更新，釋出業界首個支持長文本、長圖文以及長語音的大模型產品。

其長語音功能，可以實作會議錄音、學習影片等的一鍵研讀，實作音影片場景的高效知識獲取。新版大模型將科大訊飛國際領先的語音辨識和轉譯技術結合起來，讓英文資料也能像純文字內容一樣進行快速獲取和學習。

如今，一個自主可控的多語種智能語音技術及全球產業生態正在構建。科大訊飛的技術演算法全部自研，目前，已建成5個國產化集群，語音合成、辨識、轉譯、互動等國產化能力日服務8.73億次。2023年，訊飛與華為聯合攻關大模型國產化算力底座核心難題，建設首個全國產算力平台「飛星一號」，填補了國產超大模型訓練平台空白。

科大訊飛董事長劉慶峰表示：「我們應正視差距，聚焦自主創新的底座大模型‘主戰場’，從國家層面聚焦資源加快追趕，同時系統性構建通用人工智能生態和套用，打造綜合優勢。」（記者張毅璞）

打造「多語種」名片 科大訊飛實作智能語音自主創新生態

打造「多語種」名片科大訊飛實作智能語音自主創新生態