华人CMU校友自研具身智能机器人，致力于开放场景的商业化落地

2024-02-20科技

早在高中时期，雅可比机器人创始人邱迪聪就已经有将 AI 和机器人进行结合，使后者能够自主执行各种任务的想法。自此以后，不管是求学，还是工作，其始终围绕该方向进行探索。

图 | 邱迪聪（来源：邱迪聪）

比如，在美国卡内基梅隆（CMU）大学机器人学院求学期间，他基于强化学习和人形机器人操作能力做了诸多研究。

走上工作岗位后，他参与或主导过美国航空航天局（NASA，National Aeronautics and Space Administration）火星车研发、L4 级自动驾驶等项目，不但让地外探测器具备 AI 能力，而且实现长距离自动驾驶的物流运输和复杂场景人机博弈交互。

正是拥有超过八年 AI 与机器人跨领域研究和落地经验，以及看到当下 AI 发展的浪潮来临，邱迪聪决定回国创业，于 2023 年 4 月成立了创业公司雅可比机器人。

目前该公司已经发布一款具身智能商超服务机器人，可以通过口头指令让机器人完成补货与拣货等任务。并且，该公司在已获得奇绩创坛（YC 中国）的种子投资。

图丨雅可比公司发布的具身智能商超服务机器人（来源：资料图）

一款能自动补货和拣货的具身智能商超服务机器人

据介绍，具身智能作为智能系统的一种设计理念，是指机器能够通过感知与交互，来完成和现实世界的实时互动。

雅可比公司发布的这款具身智能商超服务机器人，能够通过人类语音指令的控制，在商超场景下实现多任务执行能力，包括自主巡检、自动补货、货品分拣等功能。

例如，在使用该机器人的过程中，用户只需要以口头或文字输入的形式，提出「货架上的雪碧不够了，需要补货」的需求，机器人就能在不经过任何培训的情况下，利用「大脑」J-Mind 先将抽象的需求进行推理。

然后自动形成可以执行的动作指令，接着再利用「小脑」J-Box 执行指令，从多类物品中识别和抓取出雪碧，将其精准地放到货架的空缺位置中，从而完成自动补货的功能。

事实上，上述这些主要功能得以实现的背后，主要涉及感知、规划和执行三个层面的技术。

在感知层面，机器人必须像人一样，具备对开放世界的场景认知。也就是能「看到」整个场景中的各种物品，并在此基础上理解用户的需求。

「为了实现对场景的动态认知，我们主要利用的是视觉基础模型。我们并不一定要在应用场景里预先做好数据集采集和标注，而是机器人及我们的基础模型本身就具有非常强的泛化能力，能够延伸到它从未‘看’过的东西。」邱迪聪解释道。

具体地说就是，即便机器人原本只知道有可乐、芬达等饮料，但在看到雪碧这种全新的物品以后，也能大概「猜到」它是一个罐装饮料，并会借助文字识别技术对其中的信息进行读取，进而实现对新物品的认知。

在规划层面，机器人通过多模态基础大模型在理解当下场景和用户需求的同时，将其转化为不同的子步骤。

「我们主要利用视觉模态和语言模态，和底层的基础模型进行对齐，进而让大模型实现从理解需求、分析场景、到行为决策的转换。」邱迪聪表示，类比于仿生学，该公司的研发团队将这项技术命名为「大脑」J-Mind。

在执行层面，机器人需要在真实的物理世界中执行目标任务，并具备良好的泛化和推演能力。具体到货品分拣任务，则需要做到抓取、操控、放下等动作。

「该部分涉及到‘小脑’J-Box 技术，其将多策略优化技术和动态色彩质量渲染的强化学习技术进行结合，能够在得到基准策略的基础上，进一步提升机器人执行每个任务的细致程度和泛化能力。」邱迪聪说。

而将三个层面的技术结合在一起之后，就可以帮助机器人完成从感知端到决策端再到行为端，最终到物理世界的执行端的任务全闭环。

从这个角度来说，该机器人相较于那些常见的只能移动或展示广告信息的传统商超机器人，已经实现了一个台阶的提升。

与此同时，在大模型技术的赋能下，该机器人能够在高度动态变化的场景下，基于自身所具备的泛化能力，解决可能出现的各种长尾问题，比如行进过程中出现人或物的阻挡。

另外，想必很多人都有和传统服务机器人进行对话的经历，也会发现后者常常出现答非所问的情况，这是因为它只具备识别某些关键词的能力，无法理解用户的话语内容。

而该机器人在理解话语的基础上，还能结合对自身和当下所处世界的状态的综合理解，形成自己的想法和行为。

商超只是首个落地场景，未来将向日常生活全方位延伸

那么，在真实的商超场景下，与工作人员相比，该公司开发的这款机器人，又具有怎样的表现？

虽然在相同情况下，机器人每完成一次有关理货、补货或拣货的任务指令，大概要花费人类的 2 至 3 倍时间，但在工作量较大的情况下，它能发挥远超于人力的优势，包括可以全天候地持续运行，不需要换班。

在后台能通过数据呈现的方式看到每个任务的执行情况，不会出现放货、拣货错误等人工会产生的疏漏，从而避免商超在管理方面的缺陷。

值得一提的是，该机器人具有内置热插拔电源，可以在不需要连电的条件下，持续运行超过四个小时，并且能在电量耗尽时快速更换电池，或者自主返回充电。

「目前，我们正在开发下一代机器人以及和行为控制相关的算法，目标是将机器人完成任务的时间，达到与人类相同甚至更高效的水平。」邱迪聪表示。

据他介绍，虽然该公司选择在商超场景下打造机器人的多任务执行能力，但并非只局限于该场景。其计划通过不断提升机器人的开放场景服务能力，以向人们日常生活全方位延伸。

显而易见，商超里面销售的物品，几乎覆盖了人类生活的方方面面，无论是在家庭，还是在餐厅，抑或是在办公室。

「我们希望可以在商超的执行环境中，训练出机器人对各类物品的认知、对工作人员和顾客的交互，以及处理任务的逻辑等一系列能力，再将其推向人们的生活，让它能够独立地完成更多自主任务，以提升人类的生活幸福感，以及提高整个社会的价值。」邱迪聪说。

将用户喝完的饮料瓶丢到垃圾桶里，是该机器人已经拥有的其中一种开放场景服务能力。

研发团队还在探索其在办公端、家庭端等其他场景的能力，比如机器人可以作为公司前台，带领访客来到会议室，并完成倒水、分发资料等任务；可以作为家庭助手，完成擦桌子、整理衣服等任务。

其中两位创始人均毕业于 CMU，力争推动具身智能机器人真正落地

除了创始人邱迪聪该公司还有两位联合创始人，分别是同样于卡内基梅隆大学获得博士学位的梁俊卫教授，和在机器人运营和商业化方面拥有丰富经验的汤安。

他们三人基于相同的信念和愿景，即通用机器人未来会进入人类生活、服务人类社会，选择在 AI 浪潮到来的当下参与其中，推动智能机器人的发展。

如上所说，邱迪聪长期专注于 AI 和机器人技术的结合。梁俊卫在视频大模型和具身智能两方面拥有深厚积累，汤安曾具备数百台量级的无人车车队运营和落地经验。

团队核心成员的结合，给该公司提供了前沿的技术积淀和良好的商业化能力，进而推动上述具身智能解决方案的诞生。

不过，目前该公司还处于初创阶段，团队规模在 10 人左右。据了解，他们正在基于如上所说的种子轮融资布局以下两方面的事务。

其一，提升「大脑」J-Mind 的能力，让机器人可以更加通用地理解开放场景，并将其转化为抽象的行为执行过程。

其二，基于共创模式，与来自商超、药企、餐饮等领域的客户共同打磨场景，以大幅地提升面向未来的具身智能机器人的行为能力，并走向真正的落地。

运营/排版：何晨龙