精准学推出中国首个语音端到端大模型，助力 AI 辅学体验更上一阶

2024-08-23科技

做 AI 硬件，关隘不在硬件在 AI，做 AI 辅学硬件，端到端的 AI 语音交互尤为关键。正如 GPT-4o 扮演老师角色，让可汗学院创始人萨尔·汗和他的儿子伊姆兰也惊艳于它的数学题解答和教学能力。

虽然 GPT-4o 能力很强，但一直以来，开源社区缺少中文为主的高质量语音 Codec 和自监督预训练 Encoder 基础设施，让很多有计划使用 AI 大模型做教育应用的企业很难在对话体验上实现突破。

深圳湾 8 月 23 日消息，来自浙江的教育科技公司精准学宣布，公司已在 AI 语音交互技术上取得领先性的突破，成功训练了中国首个语音端到端大模型「心流知镜-s(V02)」，它可以直接实现「语音输入-语音输出」的交互，在适配辅学场景后，大模型可以生成更加自然的对话交流体验，让 AI 达到「真人老师」级别。

精准学 AI 实验室从零开始训练，使用端到端语音结构，避免了级联 ASR+LLM+TTS 方式额外延迟，同时也更好的改善纯文本模型损失的情感节奏等丰富信息，让 AI 语音交互更加接近人类的对话体验。

为回馈开源社区，精准学还将提供时间表，逐步开放基础模型，供学术和非商用使用，为科研和技术探索作出贡献，促进 AI 语音技术更好的服务于社会。

今年 5 月，精准学曾获得阿里 2 亿元融资。次月，精准学首个原生代 AI 辅学机 Bong 系列上架销售，主打 AI 老师一对一辅学功能，这也是行业内首次有产品绕过助手工具，正面提供一对一的 AI 辅学功能。

此次发布的语音端到端大模型也将很快应用于精准学的 AI 辅学机上，深圳湾的读者也将在 9 月份的 AI 硬件线下交流活动上，很快体验到这项技术突破成果。

主笔：周森 / 深圳湾