當前位置: 華文世界 > 科技

打造「多語種」名片 科大訊飛實作智能語音自主創新生態

2024-05-12科技
中安線上、中安新聞客戶端訊 在教室,老師透過遙控器和智能黑板直接對話;在家裏,空調、電視機等家電早已實作語音控制;駕車行駛在路上,一句指令就能操控汽車;會議室裏,多人發言都能立刻被清晰錄音並轉寫成文字、生成會議紀要……近年來,智能語音正潤物細無聲地改變著人們的生活,也創造了巨大的市場價值。
據國際數據公司IDC分析,預計到2030年,全球智能語音服務市場規模將達約731.6億美元,復合增長率27%。如此龐大的市場、如此關鍵的技術,中國如何不被「卡脖子」?以科大訊飛為代表的中國科技企業給出答案:自主創新。
中國的語音技術要掌握在中國人自己手裏
作為新一代資訊科技和人工智能產業的重要組成部份,智能語音不斷實作關鍵技術突破,精度、速度與智能化水平正在逐年提升。在實際套用環境的匹配度方面,相關技術產品已經可以滿足「混合語種」「復雜環境」「多人互動」等更為高端的任務需求。而在20世紀90年代,中國的智能語音技術和語音產業還是外國人的天下,微軟、谷歌、英特爾等企業紛紛在中國設研究院。如今的人工智能龍頭企業科大訊飛正是在這種情況下誕生。
據了解,科大訊飛創始人劉慶峰當時還是中國科學技術大學的學生,在導師王仁華的支持下,他和幾位同學立誌「中文語音技術要由中國人做到世界最好,中文語音產業要掌握在中國人自己手上」,於是創立了科大訊飛。
經過多年研究和實踐,科大訊飛不僅將中文語音技術做到最好,也將多語種技術做到全球領先。語音辨識的準確率達到98%,多人會議場景的說話人分離和辨識的準確率達到95%。2021年,科大訊飛在美國國家標準與技術研究院NIST發起的國際低資源多語種語音辨識競賽OpenASR中,獲得全部受限賽道的15個語種冠軍及7個語種非受限賽道冠軍。
科大訊飛的多語種技術爆發,是在2019年。當年10月8日,美國商務部突然宣布把科大訊飛、海康威視等8家中國人工智能企業列入實體名單。當時,科大訊飛已儲備了11種語音的多語種技術。被列入實體清單之後,科大訊飛啟動緊急預案,迅速攻關,進行40多種語種的研發。當時,華為也在被制裁,沒有多語種技術,華為手機等器材在超過75個國家/地區的銷售都受到極大影響。華為終端部門從全球66個供應商中經過細致甄選,最終選擇科大訊飛作為多語種供應商,保證了2020年3月的海外產品釋出。
如今,在中國智能語音市場,科大訊飛的市場占有率多年保持第一。以大熱的智能汽車行業為例,2023年,中國汽車出口量超過日本,躍居全球第一,而出海十強企業中,有8家都在和科大訊飛合作。科大訊飛多語種技術已經可以覆蓋全球60多個語種,訊飛智能車載語音系統覆蓋23個主要語種,搭載車型已銷往亞洲、歐洲、南美等地的60多個國家和地區。
語音大模型,要建立在自主可控的國產平台上
2006—2019年,連續十四年榮獲國際語音合成大賽冠軍;2016—2023年,連續4屆獲得國際多通道語音分離和辨識比賽CHiME冠軍;2021—2023年,連續三年獲得國際語音轉譯比賽IWSLT冠軍……
作為中國人工智能「國家隊」,科大訊飛代表中國取得了多項重要標誌性成果,逐漸構建起獨立的語音自主知識產權技術體系。
如今,大模型的出現發展給語音技術帶來了新的前進動力,結合大語言模型更精準的語意理解和更精細的描述能力,語音合成表現力、長時的語音辨識等語音各類任務也能快速突破效果的上限。
今年1月30日,科大訊飛釋出基於首個全國產算力訓練的訊飛星火V3.5,正式釋出星火語音大模型,首批37個主流語種效果超過OpenAI Whisper V3。4月26日,訊飛星火大模型V3.5再次更新,釋出業界首個支持長文本、長圖文以及長語音的大模型產品。
其長語音功能,可以實作會議錄音、學習影片等的一鍵研讀,實作音影片場景的高效知識獲取。新版大模型將科大訊飛國際領先的語音辨識和轉譯技術結合起來,讓英文資料也能像純文字內容一樣進行快速獲取和學習。
如今,一個自主可控的多語種智能語音技術及全球產業生態正在構建。科大訊飛的技術演算法全部自研,目前,已建成5個國產化集群,語音合成、辨識、轉譯、互動等國產化能力日服務8.73億次。2023年,訊飛與華為聯合攻關大模型國產化算力底座核心難題,建設首個全國產算力平台「飛星一號」,填補了國產超大模型訓練平台空白。
科大訊飛董事長劉慶峰表示:「我們應正視差距,聚焦自主創新的底座大模型‘主戰場’,從國家層面聚焦資源加快追趕,同時系統性構建通用人工智能生態和套用,打造綜合優勢。」(記者 張毅璞)