當前位置: 華文世界 > 科技

至今為止最大!亞馬遜釋出文本轉語音模型BASETTS「附智慧語音技術發展趨勢」

2024-02-19科技

瞻觀前沿

亞馬遜 AGI 的人工智慧研究人員團隊宣布開發出他們所說的有史以來最大的文本轉語音模型。最大意味著擁有最多的參數並使用最大的訓練數據集。他們在arXiv預印本伺服器上發表了一篇論文,描述了模型的開發和訓練方式。在這項新的努力中,研究人員試圖透過增加參數數量並添加訓練庫來提加文本轉語音應用程式的能力。

這個名為BASE TTS的新模型擁有9.8億個參數,在同類產品中最大,在規模和能力上都超越了之前的叠代版本。它使用了10萬個小時的錄音(來自公共網站)來進行訓練,其中大部份為英語語音,但也包括德語、荷蘭語和西班牙語,這使它成為自然語音的新標準。

研究人員表示,盡管遇到了文本轉語音引擎固有的困難,如發音錯誤或語調錯誤,但該模型在處理復雜的語言結構方面表現出了非凡的能力。

研究人員進一步指出,與之前的文本轉語音模型相比,該模型提高了單詞的發音品質。

外媒稱,這一突破標誌著文本轉語音技術的發展向前邁出了重要的一步,在不久的將來有可能得到廣泛的套用。

技術價值觀察

——智慧語音是人工智慧的核心技術之一

智慧語音是人工智慧技術的重要組成部份,包括語音辨識、語意理解、自然語言處理、語音互動等。當前,人工智慧的關鍵技術均以實作感知智慧和認知智慧為目標。語音辨識、影像辨識和機器人視覺、生物辨識等目前最火熱的領域,主要解決的是感知智慧的需求,就是使得人工智慧能夠感知周圍的世界,能夠「聽見」或者「看到」。

——智慧語音進入加速套用階段

智慧語音技術的關鍵部份主要包括語音辨識、語音處理、語音合成等,隨著相關技術的不斷成熟,智慧語音已經逐漸進入加速套用階段,在車載語音、智慧教育、智慧安防、智慧家居、智慧醫療等領域都將出現智慧語音技術的身影。

宏觀市場觀察

——中國智慧語音市場規模超過280億元

2017-2021年中國智慧語音市場規模持續增長。根據德勤估算數據,2021年中國智慧語音市場規模突破250億元,達到285億元,較2020年的217億元增長31%。

——全球智慧語音市場高速發展

從全球視角看,智慧語音市場規模高速增長,2021年估算在264億美元左右,較2020年203億美元的市場規模增長30%。

中國智慧語音技術賽道熱力圖

根據前瞻產業熱力圖顯示,與智慧語音關鍵技術強關聯的城市集群主要集中在華南地區,並且以深圳市為重點發展區域,未來布局智慧語音技術及其他相關技術的發展路徑,極大可能性在於華南地區優先匯入,其中可重點關註廣東省深圳市龍華區、廣東省深圳市龍崗區所處的智慧語音相關企業,以及該地方對於智慧語音產業發展投資環境、供給市場的潛力空間。

前瞻經濟學人APP資訊組

更多本行業研究分析詳見前瞻產業研究院【2024-2029年中國大模型產業發展前景與投資戰略規劃分析報告 】

同時前瞻產業研究院還提供產業大數據 、產業研究報告 、產業規劃 、園區規劃 、產業招商 、產業圖譜 、智慧招商系統 、行業地位證明 、IPO咨詢/募投可研 、IPO工作底稿 咨詢等解決方案。在招股說明書、公司年度報告等任何公開資訊披露中參照本篇文章內容,需要獲取前瞻產業研究院的正規授權。

更多深度行業分析盡在【前瞻經濟學人APP】,還可以與500+經濟學家/資深行業研究員交流互動。