當前位置: 華文世界 > 科技

莫耳執行緒:正式開源音訊理解大模型MooER

2024-08-25科技

【環球網科技綜合報道】8月24日訊息,國內GPU與AI計算解決方案提供商莫耳執行緒宣布,正式開源了其音訊理解大模型——MooER(摩耳)。

據介紹,該模型是業界第一個基於國產全功能GPU進行訓練和推理的大型開源語音模型。MooER大模型的開源,是莫耳執行緒在AI語音技術領域的又一重要裏程碑。據莫耳執行緒介紹,MooER依托其自研的誇娥(KUAE)智算平台,結合創新演算法和高效計算資源,僅用38個小時就完成了對5000小時音訊數據和偽標簽的訓練,展現了驚人的計算效率和數據處理能力。

作為業界領先的開源語音模型,MooER不僅支持中文和英文的語音辨識,還具備中譯英的語音轉譯能力。在多個語音辨識領域的測試集中,MooER展現出了領先或至少持平的優異表現,特別是在Covost2 zpen中譯英測試集上,BLEU分數達到了25.2,顯著優於其他開源模型,取得了可與工業水平相媲美的效果。

MooER的模型結構由Encoder、Adapter、Decoder(LLM)三部份組成,透過高效的音訊建模和文本融合機制,實作了對復雜語音訊號的理解和轉換。在模型訓練階段,莫耳執行緒采用了先進的LoRA技術,僅更新2%的LLM參數,顯著提升了訓練效率和最終效果。

此外,莫耳執行緒還計劃後續開源訓練程式碼以及基於8萬小時數據訓練的模型,旨在推動語音大模型的方法演進和技術落地,為社群貢獻更多價值。莫耳執行緒方面表示,希望透過MooER的開源,促進AI語音技術的普及和發展,助力更多開發者和企業實作技術創新和產業升級。