当前位置: 华文世界 > 科技

小爱同学:大模型颠覆端侧交互体验|AI应用指南

2024-05-10科技

【亿邦原创】AI助理是大模型最靠近消费者的应用,承载着大模型To C的巨大想象空间。

这也是小爱同学的主要工作范围。小爱同学是小米集团的人工智能交互引擎,搭载在小米手机、音箱、电视、电脑等众多小米设备中,可以充当用户生活中的智能助手。小爱同学的主要任务包括:设备控制类、信息查询类、生活服务类、闲聊对话类等。

2022年10月,小爱同学开始探索大模型应用,小米集团小爱总经理王刚发现,大模型可以帮小爱同学大幅提升用户活跃度,并提升中长尾问题的回答满意度。目前,小爱同学月活1.3亿,每天的交互次数2亿。

2024年5月9日,在阿里云的AI峰会上,小米集团小爱总经理王刚分享了过去两年小爱同学在大模型上的探索与思考。

以下是王刚分享的主要内容,经亿邦动力编辑,未经讲者审核。

大家好,我是小米集团小爱同学的王刚,很荣幸在这个场合跟大家介绍过去两年小爱同学在大模型上的探索。

小爱同学研发于2016年,到现在已经8年,广泛应用在小米的各个终端设备上。小爱同学是一个软硬件结合的智能助手,背后是大量硬件的声学链路设计、前端的语音处理、系统级的应用设计。

小爱同学的具体任务包括几大类:设备控制类最多,还有信息查询、内容服务、生活服务、闲聊对话等大概54类,月活1.3亿,每天的交互次数2亿。

我们在2022年10月开始应用大模型技术,到今天为止,已经在汽车、手机、音箱等多种设备上使用。我们发现,大模型技术能显著提升用户满意度,提高用户活跃度。

比如,大模型提升了很多中长尾问题的满意度,还有闲聊互动的满意度。原来中长尾的满意度在30%-40%,有了大模型之后提升到80%,用户活跃度大概提升了10%。

再比如商品助手这个产品,要回答用户关于售前、售后的各种问题,某个商品的参数、配置、价格等问题,如何使用产品,故障之后如何修理等。

在过去的AI技术下,我们需要写大量问答对,才能把问题回答出来。但大模型有通用解决范式,通过RAG技术、检索匹配,可以得到最优答案。这让原本复杂的问题变得很简单。

小爱同学内有大量NLP任务,以前每一个NLP的任务都需要收集针对性的训练数据,做针对化训练。大模型时代的开发范式跟以前有一个巨大的差别,大模型具有世界知识,通用能力特别强,在解决特殊NLP任务时,我们只需要用小数据加上大模型,就可以应用到不同NLP任务中,效果还比之前还好。所以我们也看到,在非常多的NLP任务上,大模型改变了原有的解决问题的方式。

小爱同学在接收到用户语音后,需要先对用户需求做意图理解,意图理可以分成几大类任务:

一个是内容类任务,典型的是点歌需求。通过小爱同学点歌,这个任务对搜索推荐有强依赖。我们通过大模型进行用户需求理解,指导用户想搜什么样的歌曲,然后用相对传统的搜索推荐技术去解决任务。

一个是生成式问题,这是大模型特别擅长的,原来的技术也做不到。

最难的是知识问答类任务,这类任务对准确性要求高,通常只有唯一答案,所以对大模型的通用能力要求特别高。这块也是我们看到的大模型最难解决的地方。到目前为止,大模型距离真正解决用户需求还有明显差距。

这也是我们很关心的问题。每次我们在跟基座大模型同行聊天的时候,都会问:大模型现在有没有到天花板?距离天花板还有多远?同行会回答,大模型的天花板还很高,我们当下离天花板还很远,我们会用更大SCALE训的练数据,让大模型能力能变得更强。这也是我们特别期待的。

小爱同学在大模型应用方面,步骤和大家差不多,包括建设业务所需要的评测集;选择业务场景下的适配模型;针对场景做定制优化微调。

举个例子,我们最关注的模型指标是两个:一个效果,一个性能。在效果上,我们划分了9大类42小类的效果指标,对所有的模型去做评价。在性能上,根据不同场景、不同需求,我们遍历所有大模型,寻找最优模型。

在小米汽车SU7上,「小爱同学」可以遵从乘客的自然语言指令,在车载中控屏画出「小猫爬上窗台」等画面,增加亲子互动和乘车乐趣。通过优化算法、蒸馏模型,大模型在确保图片质量的前提下可做到5秒出图,将出图时间缩短一半。

在小米手机端的「小爱同学」还可以完成一键拍照生成菜谱、户型图分析、提供P图建议等复杂的图片理解任务。用户还可以向「小爱同学」发出语音指令,请它创作一幅山水画、梗图或创意设计文案。

总结一下,在随着大模型能力越强,我们对小爱同学后续的能力升级抱有非常大的期待。

我们当下最关注的AI趋势,一个是AI Agent,一个是多模态,还有一个是端侧大模型。

AI Agent是一个非常重要的概念,它能帮助用户完成一些复杂任务,但当下还没法真正用起来,因为一个任务如果不能以95%以上的准确率完成,这个产品还不太可用。我们希望去加快跟我们大模型厂商的合作,能去把一些AIAgent的准确率大幅提升。

多模态是现在的必备技能。

最后是端侧大模型,端侧大模型可以可以解决用户的隐私的问题,可以在用户数据不上传的情况下,帮助用户搜索文件,解答问题,包括在无网、弱网场景下,直接跟用户交互。

总结一下,对小爱同学来说,我们关注的事情就两条,一条是效果,一条是成本。当前效果更重要。从效果上看,我们又看中两点:一个是通用能力,一个是场景适配能力。

所以阿里云的百炼平台对我们很有吸引力,可以让我们把业务场景和大模型进行高效适配,阿里云也发布了百炼平台2.0,我们也会作为一个重要的内部平台把它用起来,希望百炼平台能帮我们服务好业务场景。

这是我今天的分享,谢谢大家。