大模型盘点③｜智元：想让所有机器人都接入智元的大脑 - 科技

2024-10-07科技

记者：吴洋洋陆彦君

表格整理：杨秋秋陈凯悦｜制图：程星

编辑：吴洋洋

Key Points

对机器人来说，更重要的是动作大模型，而不是语言大模型；

动作编排大模型在智元的公司战略中占据中心位置，其他技术它都开源了；

就像OpenAI将GPT做成大模型领域的基础设施一样，智元也希望未来所有的机器人都使用同一个大脑——智元牌的；

在机器人大脑的进化上，智元提出了G1到G5的演化路径和技术框架，并认为目前我们处于G2和G3阶段；

家庭场景的任务比工业场景更复杂，从B端积累的能力可以泛化到C端。

大模型领域进入瓶颈期后，人形机器人成为新风口。简单比较下每年8月底在北京举行的世界机器人大会（WRC）的展商阵容就能发现这一点。与一年前相比，刚刚结束的WRC 2024上人形机器人的厂家数量同比增加了一倍，它们取代传统的机械臂、手术机器人或者机械狗，成为展馆中占据最大面积的机器人类型。

人形机器人被从0到1组装出来的速度令人惊讶。今年年初，耶鲁大学计算机专业博士生杨丰瑜才传出进入人形机器人领域创业，5个月后，其创办的Unix机器人公司就让可以叠衣服、做汉堡的人形机器人「走」出来了。Unix可能是最快的，但不是唯一的，WRC 2024挤满了2022年、2023年才成立的年轻机器人公司，现场看起来就像是2023年「百模大战」的再次上演，只不过这一次模型们开始有了身体。

Unix展示它们用5个月时间做出来的机器人叠衣服。

今年的「百机大战」与去年的「百模大战」有不少相似之处，尤其在商业化的方向选择上。和大模型公司一样，人形机器人公司们也面临选B端还是C端，抑或「两条腿」走路的艰难选择。WRC 2024展会上，差不多有一半的公司选择家庭场景，它们希望消费者将其机器人买回家当作玩具，或者在不久的将来帮他们做点家务，Unix是这个方向的代表。同时有另一半的公司选择B端的工业、零售等场景，比如智元希望他们的机器人可以进工厂干活，银河通用想要他们的机器人有朝一日在无人值班的夜间药店为消费者抓药，宇树科技则既推出了可以去危险的工业场景中巡检的机器狗，同时又推出了个子相对瘦小、看起来像儿童而非大人的小号机器人以便在家庭场景中服务普通用户。

银河通用展示机器人抓药。

另一个相似之处是肉眼可见的同质化。WRC 2024展会上，几乎每一家机器人公司的人形机器人都有了还算灵巧的双足或者双手，加载了ChatGPT后，它们可能连跟你说的话都一样。

不过，与这些外在的相似之处相比，「百机大战」与「百模大战」两股潮流的不同之处更多。首先是玩家身份，训练大模型的公司们，包括MiniMax、月之暗面、智谱、百川等在内，都没有提出过要进入机器人领域，目前已拿到融资或已推出人形机器人的创业者都是全新的，百机大战与百模大战是两个圈子的游戏。其次，机器人公司的估值依然远低于大模型公司，目前估值最高的两家人形机器人公司智元和宇树科技的估值都在70亿元左右，而头部大模型公司的估值都已经上涨到200亿元左右。

造成这些人形机器人公司估值更低的原因之一是投资人们的「非共识」，部分声音认为人形机器人的ChatGPT时刻至少要再过几年才会到来。然而更重要的原因来自于为「百模大战」烧钱的后遗症，市场原本预期大量投资能够筛选出像OpenAI那样的垄断性选手，结果却是同质化的智能水平，甚至基于模型开发的产品形态都是差不多的。人形机器人公司们被资本市场期待拥有更强的造血能力，而不是依赖融资生存。

这种压力下，国内这些人形机器人公司们很难像特斯拉那样对机器人进行软硬件一体化的全方位投资，而是分别在大脑（即认知和任务规划能力）、小脑（即运动控制）和本体（即身体硬件）方面有所侧重。

我们在3个类别中分别选择了一家公司，尝试通过对它们的采访或资料梳理，展现机器人新浪潮初期的市场逻辑。本文是第一篇，关注的是2023年2月由「稚晖君」彭志辉在上海创立的人形机器人公司「智元」。

作为目前中国估值最高的机器人公司，智元机器人在今年8月18日举办了创立后的第二次发布会，发布了远征A2、远征A2-W、远征A2-Max、灵犀X1与灵犀X1-W等5款商用人形机器人。

8月18日的发布会上，智元机器人发布的5款商用机器人。

这次发布会上，智元机器人展示了它的最新款人形轮式机器人远征A2-W有多聪明和能干。在一个布置得像客厅的场景中，彭志辉对这个机器人说「给我做一杯萄汽可乐吧」，远征A2-W回问「什么是萄汽可乐」，「就是把葡萄榨汁和可乐放在一起」彭志辉说。听到解释后远征A2-W就移动去了桌子边，从既有青枣、葡萄又有小番茄的碟子中选中葡萄，拿起榨汁机，成功将葡萄打成汁，然后又从有可乐、雪碧、橙汁、矿泉水的罐装饮料中选中可乐，用它的两根手指打开瓶盖，成功将可乐倒入葡萄杯中，递给彭志辉。

以下视频来源于

新皮层NewNewThing

远征A2-W理解了彭志辉的意图，并完成了一个需要多步规划的复杂任务——制作汽水。

在这段演示之前，全球从未有机器人公司现场展示过机器人在语义理解和手眼配合完成相对复杂任务等两方面的能力。此前，包括Figure AI在内的美国同行也是更多展现了他们的机器人加载ChatGPT后如何善解人意。

支持远征A2-W机器人为彭志辉成功制作「萄汽可乐」的，是智元的动作编排大模型。这个大模型在智元的公司战略中占据中心位置，在此之外，它虽然也投入机器人本体、运动控制等部分的研发和机器人整体的生产和销售，但其他一切投资和商业模式都建立在如何让这个动作大模型变得更强上。

动作编排大模型变得更强的必要条件之一是数据。这次发布中，智元推出了专门用于数据采集的机器人灵犀X1-W，并在上海修建了一个由大批机器人组成的数据采集工厂，计划到10月底投入100多台机器人，由此采集的海量真机数据，除了可以教会机器人完成特定的操作任务外，还可以用于训练一个更为通用，可以理解任务、规划行为的机器人大脑和一个可以灵活执行多种不同任务的机器人小脑。

智元机器人在上海建立的数据采集工厂。

这些预训练只是智元获得数据的方式之一，它更大的计划是让机器人以更快的速度进入更多工业场景，从真实的工业岗位中获得数据。8月18日的产品发布会和8月20日开始的WRC 2024展会上，智元展示的都是一种鲜见的开放态度：开源和生态成为两个不断被提及和展示的关键词。一年之前，它强调的还是自己是一家能做研发并能制造出足够聪明的机器人的公司，至于它借助了哪些产业链的力量，那是秘密。而今天，包括讯飞、均普智能、数字华夏、北电数智、软通动力等在内的产业链上下游公司都已成为智元的生态成员，并在WRC 2024展会的智元展台一同展示。

「智元智元做的事是把机器人的大脑和小脑都搭起来了，以后所有人都可以基于我们的机器人大脑和小脑API接口，去做技术开发。」智元机器人商业拓展负责人胡静萍在展台上对「新皮层」说。就像OpenAI将GPT做成大模型领域的基础设施一样，智元也希望未来所有的机器人都使用同一个大脑甚至小脑——智元牌的。

智元开源了除动作编排大模型以外的所有机器人技术，从本体到运动控制，从硬件到软件，以及未来其数据工厂会产生的数据，以此打通进入更多工业场景的路径。胡静萍称，未来很多公司并不需要亲自投入机器人本体的研发，智元会通过技术开源让机器人本体的价格变得更低，同时这些公司也不需要再从零开始开发适合其场景的机器人大脑，只用接上智元的机器人大脑API接口就可以了。

这款更有「人情味」的机器人来自深圳的数字华夏公司，其本体来自与智元机器人的远征A2。

在机器人大脑的进化上，智元提出了G1到G5的演化路径和技术框架。类似自动驾驶从L1到L5的进化，智元认为机器人的智能也将经过从只能完成简单任务到能胜任复杂任务的成长过程。智元合伙人兼营销服副总裁姜青松在接受包括「新皮层」在内的媒体群访时称，「我们现在是在机器人的G2和G3阶段。」

商业化路径上，智元首先选择的是B端中的工业场景，理由是相较于C端的复杂任务（像远征A2-W那样完成从选中葡萄、榨汁、选中可乐、将它们混合在一起的工作，是一种多步拆解），B端的任务相对更单一。姜青松称，智元认为这些对单一任务的学习和技能累积未来能最终泛化到C端场景中。这是一个从G2、G3，向G4、G5进化的过程。

以下是智元合伙人兼营销服副总裁姜青松与包括「新皮层」在内的媒体交流的记录，为方便阅读内容经过编辑。

相较于机器人本体，智元更在乎机器人的大脑

提问：智元在开源后的愿景是什么？怎么看待人工智能开源和闭源两派的观点？

姜青松：开源肯定是对整个产业链促进最大的，开源才有更多人使用，但是机器人行业太新了，怎么开源能够让用户使用是关键，这是我们考虑最多的地方。

我们提出了三个开源，第一就是数据集开源。AI是数据驱动的，现在每采一条数据都有成本。我们之前都是数据采集工人一人教一台机器生产出来的，那个成本很高，现在我们把之前真机数据共享出来一部分，让大家能够快速地利用数据去使用机器人。

第二个，我们开源了灵犀X1，是想降低大家造机器人的成本。比如学生或者科技达人想做机器人，如果都按照几十万一套，肯定承受不起。我们现在全套零部件价格已经非常合适，你只需要买零部件，零部件价格又很便宜，我们又开源了所有图纸、软件框架还有算法，这也是促进产业往前发展的。

还有一个是开源的是底层操作系统。就是像安卓手机一样，但是中国现在还没有我们自己的机器人操作系统。这部分我们把一部分中间件开源了，相当于慢慢地为国产的机器人操作系统做一份铺垫。

提问：过去一年机器人公司的数量翻倍，机器人本体的门槛越来越低，未来机器人公司会越来越多吗？

姜青松：真正能够为客户创造价值的部分是大脑，进入这部分的机器人公司并不是很多。我们在做从机器人本体、小脑到大脑的全栈布局。我们有5款大脑，还发布了数据采集系统，实现以数据来驱动；小脑就是部分的运控算法，进行全栈布局的机器人厂家很少。机器人真正的核心是大脑，大脑才能给客户带来价值。

提问：大脑部分智元接的是讯飞？

姜青松：大脑里有两个大模型，一个叫做通用大模型（注：指语言大模型），我们用的是讯飞大模型。但是我们不是用它的人机对话功能，而是用它对世界的认知能力，比如我要去拿一瓶水，它会告诉我水在哪里。对世界的认知工作由通用大模型完成，但是要去「拿」这个动作，需要由动作大模型完成。动作大模型由数据驱动，相当于需要有一群人来训练机器人去拿水，训练多了机器人就会了。

通用大模型靠整个业界来发展，但是动作大模型是我们自己做的核心大模型，壁垒会很高，特别是数据壁垒。通用大模型数据来自互联网，但是动作大模型的数据来自于实际场景，必须实际地去采。我们做工业场景，必须真正地去服务工厂，才能有真实的工厂数据。

提问：华为、阿里也有工业大模型，区别是什么？

姜青松：这种工业大模型是不一样的，是两个维度，这种属于工业知识库，而我们的模型是实际做工。工厂里面分IT和CT，IT是技术基础、信息架构，CT是通讯。但是还有一个东西叫做OT（operational technology），实际操作，我们现在就要实际去工厂干活，手把手教机器人怎么去干活，教的过程产生的数据就是最有价值的数据。

提问：你们对G4和G5的定义是什么？

姜青松： G3是拥有原子能力，比如拿水的能力；G4就是机器人能够做简单任务，知道从这里拿到那里，做一个短任务；理解物理是G5，相当于说它能够做复杂任务了。G5就差不多可以在家里面干任何活了，你说一句话「我渴了」，或者是「我饿了」，机器人知道立马去厨房做好饭，这就是G5。

提问：你们投资人说第一个场景跑通需要三到五年，你们怎么判断？

姜青松：如果要做G5，那肯定是需要五到八年，甚至更久。第一步的商业化是简单的，工厂里做工很简单，比如流水线拆解动作就是一个简单动作，从这里拿到那里，可以通过机器人来做。所以为什么要进工厂？因为从简单的工厂开始，再慢慢到复杂工厂，可以为进入家庭做好铺垫。机器人肯定一开始是ToB，然后再慢慢地ToC。它的能力是需要积累的。

提问：你们的动作模型和语言模型现在还是分开的，需要融合吗？

姜青松：现在是分开的，业界各有说法，我们如果到了G5的阶段是可以融合的，但还是需要根据那个时候的技术路线决定。

提问：现在做动作大模型的公司多不多？

姜青松：不多，而且很多人都没在这儿（指世界机器人大会）展示。比如典型的像我们，灵初、星尘智能也是，目前投资界在接触它们，银河通用也是偏向大脑。他们对本体不是那么关注，你们看他们都是轮式。

工业场景是个切入点，累积够能力后可以泛化到家庭

提问：未来的工厂里，哪些场景是留给那些传统机器人公司比如ABB的，哪些是留给你们的？

姜青松：现在工厂里面ABB那种传统工业臂已经用得很多了，差不多能够解决工厂百分之六七十的自动化问题，但还有很多的柔性场景、危险作业，比如烟花炮竹、化工等危险场景。这些地方就是我们首先要做的，现在我们已经在联系一些客户，准备让机器人参与这种场景。

机器人怎么去做呢？第一步叫遥操作，工人离开危险操作区域，只戴上VR眼镜，穿上「动捕」（即动作捕捉）服，工人操作得越来越多，数据就形成了。数据形成以后，机器人就有了泛化能力，这就是机器人进工厂的一种途径。

还有一些简单的做法，比如像上下料，我们在上海建了一个大型的数据训练场，到了10月底会有100多台机器人，也有100多个工人手把手教它们干活，教多了机器人就会了。这也是机器人进入工厂的一种模式。

这些就是我们说的数据驱动，而其他机器人公司还在展现运动控制能力，运控能给客户带来的价值其实大家都能看得到，机器人再怎么会走路、会跳，与用户有什么关系呢？

提问：要实现你们的愿景，现在需要解决哪些问题？

姜青松：要一步步走，今年我们会能解决一些场景，比如像上下料我们已经开始逐步能够解决了。

原先所有的机械臂需要在XYZ三个方向上位置固定、大小固定才能操作，但我们现在可以做到泛化，任意零件，任意物体、任意位置我都能识别，都能快速操作。这个我们完成的第一步。

明年我们想尝试做装配，装配的重复性会特别大。那些活特别枯燥，一大堆线，一大堆特别小的线头，要穿针引线，得一天8到10个小时，这对年轻人来说是种灾难。机器人行业会产生新工种，比如第一个数据采集，还有一个叫做数据校准师，数据是要调的，一个行业会产生很多新的岗位。

提问：现在工厂里面最耗人的地方是什么？

姜青松：就是柔性物质的装配，特别是装配这一块，普通的工业机器人很难操作。机器人发展有两个大方向。一个是手要越来越精巧，我们发布的机器手可以抓针、可以摸东西，会越做越精密，以后进入工厂，它干的活就会像人一样了。还有一个就是脑，让机器人越来越能够干更多的活。人类从猿进化到人，就是释放了双手，机器人的发展也一样。走路大家最后都会走，会有多大差异？但是手是不是足够精巧？脑是否足够聪明？这才是人形机器人发展的两个大方向。

提问：toB和toC两个场景，会是工业场景、toB先跑通吗？

姜青松：人形机器人有两个能力，一个是能跟你对话、了解你，另一个是能帮你干活。（家庭这样的）交互场景锻炼的是它的对话理解能力，工厂锻炼的是干活能力。到某个点的时候会两条线并合的。

提问：哪个更难呢？

姜青松：都挺难。现在人机对话已经做到GPT-4o了，但是对自己的感知还不是很强，它只是一个平面感知。李飞飞做了一个三维空间，构造虚拟世界，这里有物理世界所有的逻辑和规律，达到这个程度后，机器人才会有对世界的真正认知。机器人现在了解的只是互联网的数据积累，是一个知识百科，但它对物理世界不够了解，比如一瓶水我手松开了，它肯定会往下掉，但这个规律GPT不知道。

提问：在工业这个场景，现在挑战是PMF（产品-市场匹配）问题，还是价格？

姜青松：价格现在不是问题。工业场景一般按照两年的投资回报计算，就是一个岗位一个工人两年来算。一般两年是一个犹豫期，就是说新技术客户它会用，但不会规模采用，你做到1.5年的投资回报周期的时候它会大规模采用，而做到1年的时候它会毫不犹豫地采用。其实我们现在价格已经非常能满他们要求了，（我们的产品投资回报周期）是在1.5年到2年之间了。

公司档案：

智元机器人