当前位置: 华文世界 > 科技

一文熟悉新晋独角兽「智元机器人」

2024-10-13科技

来源:焉知科技

作者 | 楚欣

出品 | 焉知

大模型大火之后最热的赛道是什么?人形机器人当之无愧。 当前环境下,截至八月底,国内就有26家成功融资 。刚过去的WRC2024,有27家人形机器人现场展示,多数都是2022、2023年成立的,讲灵巧手、讲大脑的企业才是当下受资本最追捧的。目前的人形机器人已经过了走路的阶段,开始注重操作性能,开始寻求场景落地。

而这里面备受瞩目的明星,则非智元机器人莫属。

智元机器人(AGIBOT),由知名的「华为天才少年」"稚晖君"彭志辉于2023年2月27日在浦东新区成立。智~具身智能,元~本体的象形双足, 元是基础,智是核心 ,具身赋能本体更多的价值。 两届发布会,相继发布了6款产品,其中有5款是今年发布的;一年半,员工规模迅速增加到了500多人;一年 半,融资八轮,估值超70亿,迅速成为独角兽企业。

本文接下来将从「资本~技术~产品~场景」角度对智元机器人进行系统梳理。

智元机器人公司使命

一年半、八轮,备受资本追捧

2023年2月以来,智元机器人已融资了8轮,融资速度惊人,展现了其在创投圈的火爆程度和投资人的高度认可。 本月这轮融资是第八轮,也标志着A轮融资阶段正式结束 ,共稀释股份5.6205%。经过多轮融资,智元机器人的估值已超过70亿元。 预计2025年年初启动B轮融资

智元机器人的投资方很多元 ,不仅仅有高瓴创投、鼎晖资本、经纬创投等投资机构,也有上海临港新片区基金、上海司南园科私募基金等地方国资,还有像比亚迪、上汽投资、长飞光纤、立景创新、百度风投、三花控股等产业资本。工业制造,是智元机器人主推的应用场景,产业投资方的加入不仅仅为智元提供了资金支撑,更重要的是提供各种落地应用场景。

此外,智元科技开始即全栈,软件、硬件、大脑、小脑、云系统等都做;不考虑代工组装,直接在上海临港建厂投产;一年半的时间,做出两代人形机器人;既注重工业场景,也布局商业应用,还想着家用场景。吃着碗里的,看着锅里的,想着田地里的,主线支线皆投入,一路高举高打,在当下的经济环境中,对资金储备确实是个很大的考验。

技术体系G5、4域、开源、生态

1、具身智能技术演进路线:G1-G5

8月18日的发布会上,参考 (小编推测) 自动驾驶L1-L5分级体系,智元机器人提出了具身智能G1到G5的演进路径和技术框架,并称智元当前处在G2和G3阶段。

G1: 基础自动化阶段 ,即传统自动化,它都是基于手工设计特征,然后配合一些简单机器视觉去做一些反馈,但是整体来说都还是程序化、编程轨迹化这种技术路径。这一阶段的部署是为特定的场景量身定制的,但对于手工配置的需求,使得它无法在不同的场景里面去做低成本的快速迁移, 所以它几乎不具备具身智能能力。

G2: 通用原子技能阶段 ,内置任务编排大模型,拥有基础模型能力。该阶段针对大量不同的场景任务和各种作业的任务需求,提炼出一些可以复用的原子能力。简而言 之,是以相对通用的方式去实现类似场景任务的快速迁移,然后配合大语言模型框架去做任务编排,使得机器人具备一定的泛化能力。智元目前在G2阶段实现了通用的位姿估计模型UniPose、通用的抓取模型UniGrasp,通用的力控插拔模型UniPlug等一系列零样本和小样本通用原子技能。通过软硬件开发和产业链合作,远征A2、远征A2-W、远征A2-Max已掌握物品拿取、放置、转移等基本的「原子动作」技能,并具备一定的泛化能力。

G3: 端到端操作技能 ,内置认知推理规划大模型,可以在机器人领域实现端到端智能水平。该阶段意味着具身智能的整体架构开始调整为「端到端」的路线,尽管这个阶段与 G2 阶段的算法架构可能是类似的,但此时的各项「原子能力」的形成方式,已经 由手工设计的算法驱动变为了大量数据采集之后的数据驱动 。依靠大量的数据采集,由数据驱动去端到端训练一系列的原子能力,它最大的价值是形成了一套通用的技能训练框架。在 G3 阶段,智元机器人也形成了一套完整的全流程具身数据方案 AIDEA(Agibot Integrated Data-system for Embodied AI,智元具身智能数据系统)。

G4: 端到端操作大模型 ,它结合前三个阶段的所有路线,希望能够实现一个通用的操作大模型或者叫large motion model(大型运动模型),区别于大语言模型,需要采集单独的行业和场景数据,训练更强的技能,能够生成更有效的操作策略,来实现跨技能程度的泛化效果,来进一步提升整个机器人在复杂任务中的表现,所以这个就是机器的角色的价值。到了这一阶段,即可引入大量跨场景的真实数据和仿真数据,同时引入世界模型帮助 AI 理解现实世界背后的物理原理,理解不同任务背后底层逻辑的相通之处。比如对于「拧开瓶子」和「拧开门把手」这两件事,就不再需要采集两份单独的数据以获得两项单独的技能。

G5: AGI ,这是一个长期的发展目标,就是在提供足够多、高质量的任务数据下,可以形成一个真正、全面的、从感知决策到执行大模型、拥有具身智能、将具备跨任务的泛化能力、开放场景的机器人技术能力,这个时候离AGI更进一步,同时也将实现公司AGIBOT的时刻。

2、人形机器人系统:四域

智元将人形机器人系统分成了动力域、感知域、通信域和控制域,在产品起步阶段就进行了完整的布局,旨在打造全方位领先的人形机器人技术体系。

1)在动力域方面, 核心关节不仅是让人形机器人更加灵活、更加自由的关键,也是未来实现规模量产、低成本制造的门槛。智元机器人实现了PowerFlow关节模组的量产化迭代升级,灵巧手的自由度数也跃升至19个,主动自由度翻倍至12个,引入了基于MEMS原理的触觉感知和视触觉感知技术,引入了高精度力控7自由度双臂,并支持双臂拖拽示教模式和可视化调节,使得机器人在操作和执行任务时更加精准和灵活。

2)在感知域方面, 智元机器人集成了RGBD相机、激光雷达、全景相机等传感器,并引入了自动驾驶领域的Occupancy前沿感知方案。通过SLAM算法的应用,机器人的环境理解能力得到了显著提升,能够更好地感知和适应各种复杂环境。此外,智元还预研了基于自然语言指令集驱动、并可适配不同机器人的 AgentOS,并促进机器人技术的普及和应用。

3)在通信域方面, 智元机器人自研了具身原生、轻量化、高性能的智能机器人通信框架AimRT。相比 ROS 等第三方中间件,提升了性能、稳定性、系统部署的效率和灵活性,同时又完全兼容 ROS/ROS2 已有生态。AimRT的开源计划也将在9月底启动,这将为机器人行业的通信技术发展注入新的活力。

4)在控制域方面, 智元机器人结合了Model-based与Learning-based两种算法,进一步提升了机器人的运动控制与适应能力。对于 Model-based,智元进一步提升了系统的鲁棒性,因此在发布会上机器人所做的演示才能如此流畅和丝滑。对于 Learning-based 算法,智元在这里划了一个重点,希望能促成机器人训练方法从算法驱动 - 数据驱动的转变。

此外,在运控算法的基础上,智元预研了基于自然语言指令集驱动的、可以适配不同机器人本体的 AgentOS。这一创新技术可以适配不同的机器人本体,并通过强化学习实现机器人技能的精准编排与高效执行。

3、智元具身智能数据系统:AIDEA

数据少、成本高,是当前人形机器人产业的痛点。 G3阶段的核心就是数据驱动端到端,智元机器人提出的解决方案是全流程具身数据方案——AIDEA(Agibot Integrated Data-system for Embodied AI,智元具身智能数据系统)。

AIDEA针对具身数据采集的痛点,提供了 数采本体、遥操设备、数据平台 三方面的行业解决方案。数采本体提供多样、可靠的机器人,适用于工业作业与交互服务数据采集。配备支持全身映射、臂手协同和高精实时的遥操设备,结合自研的碰撞规避功能WBC算法,确保数据采集高效精准。AIDEA还提供从数据采集到模型部署的全链路数据平台,还有AIDEA ML 机器学习平台进行模型训练与算法评测,以及 AIDEA Sim 仿真平台。

据报道,智元机器人刚刚建成30台左右规模的训练厂,预计到9月底将会建成100台左右规模的一个采集厂,接下来会进入一个数据量产的一个阶段。从训练情况来看,6000条实采数据可以完成机器人一个「原子动作」的训练,一名工人每天能采集1000条数据。 实采数据、仿真数据是人形机器人很重要的两类数据,智元在8月的发布会上宣布,基于AIDEA的百万条实采数据集、千万条仿真数据集将于今年四季度开源。

4、开源与生态

和一年前的表现不同,智元今年不再强调自己是一家能做研发且制造出足够聪明的机器人公司,不管是8月的产品发布会,还是WRC2024展会上,智元对外展示的都是强烈的开发态度: 开源+生态 。如同OpenAI将GPT做成大模型领域的基础设施一样,智元也希望未来所有的机器人都使用同一个大脑甚至小脑——智元牌的。

为此,智元机器人构建了面向开放生态的软件平台AIMA(AI Machine Architecture),该平台覆盖了机上、云端和客户端,集成了机器人软件的核心技术,并提供了丰富的二次开发接口,将为合作伙伴提供针对机器人软件系统的高效二次开发能力。

今年8月还发布了全栈开源机器人灵犀X1,并计划在9月底全栈开源,含本体设计图纸、软件框架、中间件源码、基础运控算法。智元希望灵犀X1能够开启「人形机器人人人造」的时代。

目前,均普智能、数字华夏、科大讯飞、北电数智、软通动力等产业链上下游公司都已成为智元的生态成员,并在WRC 2024 智元展台一同展示。同时,智元机器人也正在与上海人工智能实验室和中国科学院软件研究所等顶尖科研机构合作,共同聚焦多模态大模型和机器人操作系统的技术研发。后期,随着机器人系列产品的稳步量产,智元机器人也将启动一系列全面而深入的开发者支持计划,包括开放核心接口与详尽文档、举办机器人创新大赛,以及定期举办「智元畅享日」等活动。

硬件产品远征、灵犀、部件

2024年发布会发布的5 款人形机器人

1、远征A1

2023年8月18日,智元机器人发布第一代通用型具身智能机器人-远征A1。 发布会上,稚晖君以视频形式展示了远征A1在多种场景下的实际应用,特别针对工业制造领域,包括在汽车生产线上进行底盘装配和外观检测,在工厂中完成3C产品的组装和物料搬运,在生化实验室辅助研究人员进行样本制备和扩增,以及在家庭环境中烹饪、照顾老人、辅导孩子学习等一系列应用。

远征A1身高1.75m,重量55kg,最高步速可达7km/h,可以双足行走,依靠视觉传感器和多线激光雷达可自主避障,并且能够完成多种精细动作。

远程AI全身49个自由度,单臂最大负载5kg,关节电机峰值扭矩350N·m,集成了先进的执行器技术,如谐波一体关节、直线推杆、空心杯无刷电机等。远征A1腿部采用反屈膝设计,在目前还不具备像人一样非常高冗余度的关节自由度的情况下,反关节的设计可以帮助机器人拥有更大的操作空间。同时,配合高效的水冷散热系统,确保了其在长时间运行中的稳定性和可靠性。

远征A1的AI算力为200FLOPS,体内部署了采用智元自研的任务级具身多模态大模型WorkGPT,赋予了机器人理解用户意图、感知环境、编排任务的能力,可调用本体技能及海量工具完成多层级任务。远征A1采用「CPU+GPU」架构,开发出一款无需联网的「端脑」,使机器人能够听懂自然语言指令并分析出讲话者的意图。

2、第二代「远征」系列

2024年8月18日上午,智元机器人2024年度新品发布会上,彭志辉发布远征A2家族产品:交互服务机器人远征A2 + 柔性智造机器人远征A2-W + 重载特种机器人远征A2-Max。

智元预计今年10月开始量产远征系列,出货量超300台,其中双足人形机器人远征A2今年发货量约200台,轮式人形机器人远征A2-W则在100台左右。

1)交互服务机器人:远征 A2

作为一款交互服务机器人,远征A2对一代A1的反屈膝设计进行了优化,使得人形外观更贴近人类形象,主要用在营销客服、展厅讲解、商超导览、前台接待和业务咨询等多种服务场景。

远征A2有展示在4S店担任营业员

远征A2身高 169cm,重约 69kg,内置700Wh电池,能够实现原地60cm宽度的灵活掉头和长达2小时的续航能力,全身超过40个主动自由度的关节和仿生灵巧双手,赋予了它模拟复杂人类动作的能力。

远征A2搭载持续学习的智能大脑,由先进的大语言模型提供支持,具备多模态感知输入系统,能够通过视觉识别交互者的情绪,实现更为人性化的交流。在智元机器人2024年新品发布会现场,远征A2首次以机器人主持人的身份亮相,以其流畅自如的讲解能力和稳定自然的运动表现,赢得了现场观众的关注和好评。

此外,今年马斯克期待「Optimus机器人支持个性化,用户将能够定制Optimus机器人的性格和声音,使其更好地理解和适应用户需求」。远征A2将这变成了现实,实现了声音定制功能。用户可以根据自己的喜好和需求,调整机器人的语音特征,使其更加符合个人的听觉习惯和情感需求。

2)柔性智造机器人:远征 A2-W

远征 A2-W是一款柔性智造机器人,它的两条手臂既可以独立操作,也可以协同工作。

今年8月的发布会上,彭志辉与自家机器人做了一场交互。在一个布置得像客厅的场景中,彭志辉对一台远征A2-W机器人说「给我做一杯萄汽可乐吧?」,远征A2-W回问:」什么是萄汽可乐?」,」就是把葡萄榨汁和可乐放在一起」彭志辉说。听到解释后远征A2-W就移动去了桌子边,从既有青枣、葡萄又有小番茄的碟子中选中葡萄,拿起榨汁机,成功将葡萄打成汁,然后又从有可乐、雪碧、橙汁、矿泉水的罐装饮料中选中可乐,用它的两根手指打开瓶盖,成功将可乐倒入葡萄杯中,递给彭志辉。一套流程虽算不上行云流水,但略显笨拙的动作里,人与机器人生活的场景在此刻还是有了具像化。

远征A2-W制作萄汽可乐

远征A2-W身高为1.63米(A2为1.69米),主动自由度有22个,电池续航超过5小时,单臂负载大于5公斤,最快行走速度超过1.5米/秒。

远征A2-W采用轮式底盘(A2为双足),结合机身搭载的 RGBD 激光雷达、全景相机、为全域安全配置的传感器等等构件,使得它可以在各种环境中快速而平稳的移动。不过,远征A2-W和银河通用的Galbot G1轮式底盘对比,后者有更大的操作空间。

远征 A2-W 具备抓取、放置、搬运、插接等多种能力,自研具身智能算法,并开放接口、提供工具方便二次开发。在这段演示之前,全球从未有机器人公司现场展示过机器人在语义理解和手眼配合完成相对复杂任务等两方面的能力。

动作编排大模型在智元机器人战略中占据中心位置 ,目前一切的投资和商业模式都是建立在如何让这个动作大模型变得更强上。 动作编排大模型的核心要素是数据 ,8月份发布会上智元也推出了门用于数据采集的机器人灵犀X1-W,并在上海修建了一个由大批机器人组成的数据采集工厂,计划到10月底投入100多台机器人,由此采集的海量真机数据,除了可以教会机器人完成特定的操作任务外,还可以用于训练一个更为通用,可以理解任务、规划行为的机器人大脑和一个可以灵活执行多种不同任务的机器人小脑。

3)重载特种机器人:远征 A2-Max

远征 A2-Max是一款重载特种机器人,双臂负载大于40公斤, 目前该型号还处于产品研发阶段。

今年8月份发布会,在展示了远征A2-W操作工具的本领后,彭志辉又命令远征A2-Max搬动他面前的一个大箱子。只见这个「大力士」抱起箱子向前走动,完成了搬运任务。

远征A2-W演示搬运货物

远征A2-Max身高1.75米,主动自由度有53个,配备了 19 自由度工业级视触觉灵巧手,双臂采用双速比减速关节模组,峰值扭矩可达450Nm,大腿采用直线推杆电机,腿部关节拥有8800N推力,能轻松搬动40公斤重的航空箱。

3、「灵犀」系列

「One more thing(还有一件事)」,乔布斯常这样讲。

今年发布会稚晖君也在One more thing环节重磅公布了两款新品:全栈开源机器人灵犀 X1、专业数采机器人灵犀 X1-W。这两款机器人来自于 X-Lab(稚晖君实验室),是 10 个人不到 3 个月的时间做出的产品,里面有非常多的创新细节。

1)全栈开源机器人:灵犀X1

灵犀X1身高仅1.33米,体重不到33公斤,采用串并联混合构型手臂和差分驱动双肩关节设计,整臂仅重2.5kg。

灵犀X1人形机器人走到彭志辉面前

灵犀X1追求极致标准化,依托智元X-Lab自研的PF86 和 PF52 两款全新的 PowerFlow 关节,融入了模块化设计理念,可以通过简单抱箍形式轻松拆装,实现全身三十多个自由度的精准操控。

此外,灵犀X1内置「机-机模式」,即机器人+手机,把手机放到机器人的「头」里来做大脑,让手机本身的麦克风、扬声器、屏幕等硬件,以及网络、AI算力等软件能力为机器人带来新的突破。

灵犀 X1售价0元,将从9月底全栈开源本体设计图纸、软件框架、中间件源码、基础运控算法,但是卖零部件。彭志辉表示,期望灵犀X1能够开启「人形机器人人人造」的时代,「基于核心部件和开源产品,人人可以打造属于自己的人形机器人!」

2)专业数采机器人:灵犀X1-W

灵犀 X1-W继承了远征家族数采机器人的性能,作为低成本高可靠的数据来源,能降低数据获取成本。

4、零部件硬件

1)灵巧手

远征A1灵巧手 有超过6个的主动自由度 ,且所有驱动都是内置的,在指尖集成了触觉传感器,在手腕上集成了视觉传感器,可分辨操作物的位姿、形状、颜色、材质等信息。

远征A2系列的灵巧手的自由度数则跃升至19个 (人手有27个自由度) 主动自由度翻倍至12个, 并引入了基于MEMS原理的触觉感知和视触觉感知技术,使得机器人在操作和执行任务时更加精准和灵活,不仅能双手协同,还能穿针引线,甚至是打麻将「单指摸牌」。

2)关节模组

智元团队自研了一款专用关节——Power Flow,该关节通过电流直接做力矩控制,无需传感器,提高了透明度并降低了成本。此外,还采用了高力矩透明度行星减速器、共辄同轴双编码器、一体液冷循环散热系统以及自研的矢量控制驱动器。

此外,在打造灵犀X1的过程中,团队依托远征系列产品的经验,自研了两款全新的PowerFlow关节,即PF R86和PF R52。这两款新关节设计优雅、性能强劲,具备中空走线、输出端绝对值编码、支持PF-Link智能接口等多项功能,并融入了模块化设计理念,可通过简单的抱箍形式轻松拆装。

3)通用夹爪、六维力传感器

除了关节,灵犀 X1 还配备了一个自适应夹爪,能够以主动自由度实现各种形状物体的抓取,与百元级的六维力传感器组成了这款机器人独特的结构硬件方案。

智元OmniPicker自适应夹爪,融合了高精度制造工艺与多种模态设计的优点,仅重360克,但却拥有最大30N的夹持力,能夹起超出自身重量几倍的物品;而且最大行程达到12cm,可以只靠一个主动自由度去轻松实现各种形状物体的抓取,而且还带前馈的力控,无论是数据采集的精准度还是任务作业的效果都极为出色。并且提供了多种二次开发接口,包括USB、CAN/FDCAN、RS485、UART和PWM,让用户能够根据自身需求灵活定制软件逻辑,实现最佳控制效果。

自适应夹爪

百元级六维力传感器

此外,今年3月份,智元机器人推出了首代商用清洁机器人: 智元绝尘C5 。当时的考虑为后面人形的量产提供前置帮助,比如渠道、制造、售后等。 智元商业化路径

智元选择是B端中的工业场景作为其商业化路径的起点,希望通过在B端深耕细作,不断积累进化,未来最终泛化到C端场景。小编推测主要考虑到一下几点因素:

1、任务复杂度与可行性:

  • B端任务相对单一,这意味着智元可以更加专注于特定任务的优化和技能累积。与C端复杂的多步任务相比,B端任务的简化有助于智元更快地实现技术突破和商业化落地;
  • 单一任务的学习和技能累积更容易实现,因为不需要处理像C端那样多变的环境和需求。
  • 2、技能泛化与迁移:

  • 智元认为,通过对B端单一任务的学习和技能累积,未来能够将这些技能和知识泛化到更复杂的C端场景中。这种从简单到复杂的逐步推进策略,有助于智元在保持技术领先的同时,逐步拓展其应用场景;
  • 技能迁移是人工智能领域的一个重要研究方向,通过在一个领域的学习,可以使得模型在另一个相关领域也能表现出色。
  • 3、商业化考虑:

  • B端市场通常对技术的稳定性和可靠性有更高的要求,这有助于智元在商业化初期建立良好的口碑和品牌形象;
  • 通过在B端市场的成功应用,智元可以逐步积累经验和资源,为未来向C端市场拓展打下坚实的基础。
  • 4、市场需求与竞争态势:

  • B端工业场景对自动化和智能化的需求日益迫切,这为智元提供了广阔的市场空间和发展机遇;
  • 在C端市场,竞争可能更加激烈,且用户需求多变,难以把握。因此,从B端市场入手,可以为智元提供更多的时间和机会来完善其技术和产品。
  • 从风口到现实的极速迈进

    兴趣、实力、风口、资本皆备,智元一路狂奔。

    智元宣称,2024年是智元商用落地元年。这是智元从技术研发走向市场应用的关键一步,也是其实现商业化落地的重要里程碑。未来的5到10年,将是智元和整个机器人行业的关键时期,期待更多的科技达人加入这一赛道,共同推动具身智能的发展,实现智能机器人走进千家万户的美好愿景。