LAM大动作模型兴起！这才是我们想要的AI！

2024-02-11科技

在悄无声息中，具有里程碑价值的GPT-3.5问世已满一年。在这一年的时间里，我们不仅见证了，还亲自参与了科技界的历史性变革。基于大型语言模型（LLMs）的各种AI对话应用已经遍布我们生活的每一个角落。许多人已经不再依赖于打开搜索引擎来解决问题，而是转向与AI对话寻求答案。

By Midjourney

但也有不少小伙伴在使用过一段时间后，觉得有些无聊。确实，当前的AI虽然可以在对话框中跟你侃侃而谈，而却不能帮你解决一些实际问题。比如说帮你订个飞机票，叫个出租车，或者当你想要在PS中把这个照片的背景P掉的时候，这些对话框只会给你具体操作的步骤，却不能帮你去完成。不少用户渴望的是一个更能动手实际操作的AI，不仅能够提供信息，还能够执行具体任务。

By Midjourney

懒，才是人类的第一生产力。正是这种对舒适与便捷的渴望，孕育出了一系列划时代的产品。如今，为了满足人们希望AI能够协助解决实际问题的愿望，大型动作模型（LAMs）应运而生，它们的目标是让AI的能力不仅限于提供信息和执行虚拟任务，而是扩展到现实世界的物理动作中，进一步释放人类从日常琐事中的束缚。

By DALL-E 3

在2023年12月初，一家创新的研究团队Rabbit抢先发布了他们的首个大型动作模型系统——Rabbit OS。

图片源自互联网

Rabbit团队阐述，Rabbit OS并不是建立在像ChatGPT这样的大型语言模型上，而是创新性地构建在「大型操作模型」之上。它在概念上与Google Assistant类。Rabbit OS能够通过一个统一的界面来实现音乐控制、点个外卖、打个滴滴、买个飞机票、买张电影票，给女友买束花以及购买生活必需品等多种任务。用户不必切换不同的应用程序或者重复登录——只需告诉Rabbit OS你需要什么，它就能帮你搞定。

图片源自互联网

这个LAM的概念发布之后，就引起了老外的强烈关注，毕竟这个逻辑链是完全正确的，当LLMs已经成熟的时候，人们只需要与AI对话，AI便可以准确清晰地理解你的意图，并直接通过LAMs实现你想要的现实操作。

图片源自互联网

于是Rabbit顺水推舟地发布了，旗下第一款加载了LAMs Rabbit OS的Rabbit R1。

图片源自互联网

Rabbit R1看起来有点像是过去90年代的旋钮电视的缩小版，圆润外观是与知名设计公司Teenage Engineering的深度合作成果，正面左侧2/3是屏幕，另外一部分是控制区与摄像头，看起来非常具有复古感。

图片源自互联网

设计紧凑，体积仅为iPhone一半大小的R1，搭载了一块2.88英寸的触摸屏，并配备一个旋转摄像头，可以轻松拍摄照片和视频。此外，通过独特的滚轮/按钮，用户可以方便地浏览内容或与设备内置的助手进行互动。

图片源自互联网

性能方面，Rabbit R1内置了一颗2.3GHz的联发科八核处理器，使用了4GB+128GB的存储组合，对于这种小型设备来说，性能足够用了。

图片源自互联网

这款设备售价为199美元（约折合1450元人民币），对于一款新公司的初代产品来说，这个价格已经是非常良心了，初代量产的1万台，也于发布后的当天下午售罄。

图片源自互联网

那么，Rabbit R1可以帮用户干什么呢？根据已经上手过的老外介绍，Rabbit R1是一个语音交互式智能设备，用户无需打开应用程序，直接通过物理按键与其对话交互，就可以实现手机上音乐软件开始播放或自动打车等，有点像是对讲机的实现逻辑，仿佛对讲机对面真的有一个私人秘书在帮你实现这一切。

图片源自互联网

Rabbit R1将应用程序与用户的在线账户连接起来，并使用其自研的大型动作模型来解析语音命令，辅以GPT语言模型（主要负责转换人类的指令为文本并进行解读）来完成任务。它允许用户通过语音指令定制个性化操作，无须开发特定的API。该设备的动作模型通过分析人与应用程序的互动来学习操作方法。

图片源自互联网

让AI从对话框走向现实，这可能就是Rabbit开发LAM以及发布Rabbit R1的意义，实体化的操作逻辑与独特的动作学习功能，让Rabbit R1在海外的好评不断。

图片源自互联网

在这个AI迸发的时代，各大AI科技公司都推出了自己的大型语言模型（LLM）应用，如GPT、Bard以及国内的文言一心、月之暗面、通义千问等，这些产品的多样性往往让用户感到困惑。而Rabbit的策略则完全不同，它通过一个界面连接不同的应用，以解决用户的实际问题，类似于一个多功能的超级应用程序，用户可以通过这一平台完成几乎所有的任务，体验一站式的便捷AI服务。

图片源自互联网

展望未来，我们期待地看到LAMs（大型动作模型）的集成范围扩大到更多的智能家居设备、智能汽车和智能公共设施中。这种融合有望实现真正的人机对话——用户只需简单发出口头指令，设备便能自动识别、理解和执行所需的操作。这将是一个巨大的跃进，将极大地提高生活的便利性和效率，而且还将为残障人士和其他需要辅助技术的群体提供更大的自主性和支持。