摩尔线程：正式开源音频理解大模型MooER

2024-08-25科技

【环球网科技综合报道】8月24日消息，国内GPU与AI计算解决方案提供商摩尔线程宣布，正式开源了其音频理解大模型——MooER（摩耳）。

据介绍，该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。MooER大模型的开源，是摩尔线程在AI语音技术领域的又一重要里程碑。据摩尔线程介绍，MooER依托其自研的夸娥（KUAE）智算平台，结合创新算法和高效计算资源，仅用38个小时就完成了对5000小时音频数据和伪标签的训练，展现了惊人的计算效率和数据处理能力。

作为业界领先的开源语音模型，MooER不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。在多个语音识别领域的测试集中，MooER展现出了领先或至少持平的优异表现，特别是在Covost2 zpen中译英测试集上，BLEU分数达到了25.2，显著优于其他开源模型，取得了可与工业水平相媲美的效果。

MooER的模型结构由Encoder、Adapter、Decoder(LLM)三部分组成，通过高效的音频建模和文本融合机制，实现了对复杂语音信号的理解和转换。在模型训练阶段，摩尔线程采用了先进的LoRA技术，仅更新2%的LLM参数，显著提升了训练效率和最终效果。

此外，摩尔线程还计划后续开源训练代码以及基于8万小时数据训练的模型，旨在推动语音大模型的方法演进和技术落地，为社区贡献更多价值。摩尔线程方面表示，希望通过MooER的开源，促进AI语音技术的普及和发展，助力更多开发者和企业实现技术创新和产业升级。