当前位置: 华文世界 > 科技

精准学推出中国首个语音端到端大模型,助力 AI 辅学体验更上一阶

2024-08-23科技

做 AI 硬件,关隘不在硬件在 AI,做 AI 辅学硬件,端到端的 AI 语音交互尤为关键。正如 GPT-4o 扮演老师角色,让可汗学院创始人萨尔·汗和他的儿子伊姆兰也惊艳于它的数学题解答和教学能力。

虽然 GPT-4o 能力很强,但一直以来,开源社区缺少中文为主的高质量语音 Codec 和自监督预训练 Encoder 基础设施,让很多有计划使用 AI 大模型做教育应用的企业很难在对话体验上实现突破。

深圳湾 8 月 23 日消息,来自浙江的教育科技公司精准学宣布,公司已在 AI 语音交互技术上取得领先性的突破,成功训练了中国首个语音端到端大模型「心流知镜-s(V02)」,它可以直接实现「语音输入-语音输出」的交互,在适配辅学场景后,大模型可以生成更加自然的对话交流体验,让 AI 达到「真人老师」级别。

精准学 AI 实验室从零开始训练,使用端到端语音结构,避免了级联 ASR+LLM+TTS 方式额外延迟,同时也更好的改善纯文本模型损失的情感节奏等丰富信息,让 AI 语音交互更加接近人类的对话体验。

为回馈开源社区,精准学还将提供时间表,逐步开放基础模型,供学术和非商用使用,为科研和技术探索作出贡献,促进 AI 语音技术更好的服务于社会。

今年 5 月,精准学曾获得阿里 2 亿元融资。次月,精准学首个原生代 AI 辅学机 Bong 系列上架销售,主打 AI 老师一对一辅学功能,这也是行业内首次有产品绕过助手工具,正面提供一对一的 AI 辅学功能。

此次发布的语音端到端大模型也将很快应用于精准学的 AI 辅学机上,深圳湾的读者也将在 9 月份的 AI 硬件线下交流活动上,很快体验到这项技术突破成果。

主笔:周森 / 深圳湾