2024世界机器人大会以「共育新质生产力 共享智能新未来」为主题,为期三天的主论坛和26场专题论坛上,416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果,深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇,共同打造了一场十分精彩的机器人领域前沿观点盛宴!
在8月24日下午的主论坛上,北京具身智能机器人创新中心总经理熊友军以【具身智能:打造人机共生的新时代】为主题发表演讲。
以下是对话内容实录
熊友军(北京具身智能机器人创新中心总经理)
非常高兴能够参加世界机器人大会,受益匪浅,见到了很多老朋友,也结识了很多新朋友。大家到最后都会谈到一个问题,就是具身智能相关的问题。大家都在谈具身智能这个技术的进步,谈具身智能对未来社会价值的体现。在我看来,具身智能实际上就是人工智能和机器人深度的结合,具身智能是长了身体的智能,将会是技术的一个非常巨大的进步。
今天我想跟大家汇报一下我们创新中心在具身智能这方面的工作,首先我觉得具身智能应该是第4次工业革命新阶段,我们人类从18世纪以来经过了几次技术的迭代,每一次技术的迭代都带来社会极大的进步,都带来技术极大的提升,给人的生产生活带来很大的变化。
第一次工业革命,蒸汽机的发明,将人类从生产劳动中解脱出来。
第二次工业革命,电力的发明,带来了电气化时代。
第三次工业革命,计算机和互联网的到来,以及信息化时代。
第四次工业革命,人工智能大规模的应用、人工智能的进步为体现的。
这一代的人工智能更多体现在认知、决策和方案,它对人类物理世界的改变是间接的,但是具身智能有一个特点,它跟物理世界有直接的交互,它能够给人类带来更多更直接的体现,直接给物理世界带来更多的改变,尤其是它对生产力的,因为它具有身体,带来物理世界的改变,所以会带来生产力极大的提升,同时也会改变我们生产生活方式的一些重构。
我们觉得具身智能是人工智能的一个新的范式,它有几个特点。
特点一,它跟物理世界能够直接进行交互。
它像人一样有身体,能够直接影响我们的环境,能够直接影响我们周边的事物。我们早期人工智能更多是在数字空间和虚拟空间、信息空间的交互,中国有句俗话,「读万卷书,行万里路」,我们早期的人工智能更多是读万卷书,今天的具身智能因为有更多的物理交互,具身智能是有一定物理空间的,它不能脱离这个物理空间,不能够说我今天在北京,明天就跑到天南海北。人工智能上下五千年,天南海北各种各样的信息都可以跟它进行交互,这是具身智能第一个特点,它跟物理世界有直接的交互。
特点二,具身智能是一种自主学习的方式,它跟人比较像,它因为有身体,所以可以直接跟环境进行交互。这种自主的学习行为实际上可以更加主动,更加积极,其实也更加有创造性。
具身智能也不能够脱离传统的人工智能范式,具身智能也一样需要传统人工智能给它进行决策,做规划,我们觉得具身智能融合了符号主义、连接主义和行为主义的一种新范式。
具身智能现在其实也刚刚开始,它面临着很多的挑战,我们觉得主要有4个方面的挑战。
挑战一,它缺少高性能的具身智能本体。现在无论是各种具身智能的传感器、执行器还是它的整个身体,我们觉得还有很多需要去完善的地方。
挑战二,具身智能的运动能力是不足的,尤其体现在它的各种对环境的适应性方面,体现在它的操作能力上面,运动能力还有很大改进的空间。
挑战三,具身智能大模型和多模态大模型算法的能力是不足的,这实际上跟我们人工智能发展的范式有关系,我们现在看到了更多的具身智能,看到了机器人很多都是把现在人工智能的一些算法直接塞到机器人里面去,实际上它不能真正的理解世界上的环境,也不真正能够理解行为智能,后面还有很大的发展空间。
挑战四,缺乏具身智能这个领域里面统一的通用数据集。就像传统人工智能一样,我们现在传统人工智能大量的语音智能或者是视觉智能这方面,得益于互联网上大量语音的数据还有文字的数据。同样在具身智能这个领域,我们也需要大量操作的数据,需要大量行为的数据来丰富我们具身智能的算法,甚至是具身智能数据集的标准实际上都是缺的。
基于上面这四种不足,我们开展了在「天工」通用的人形机器人硬件母平台的研究,以及在「开物」多具身智能体软件母平台的研究,后面我在这两个方向分别介绍。
这是我们发布了第一代的通用机器人的母平台「天工」,我们觉得这个母平台是一个开源开放的平台,我们希望「天工」能够给大家提供比较好用的具身智能的硬件智能,什么叫好用呢?我觉得有几个标准。
第一,需要有多种传感器,能够比较全面的感知周围的环境,能够具有多模态具身感知的能力。
第二,需要有强的运动能力,非常强悍的运动能力。
第三,需要开源开放的环境。
对我们「天工」来说,我们具有多种传感器的融合,它可以支持更高级的人机互动。多种传感器首先在视觉这个领域里面有4个深度视觉感知的摄像头,能够感知各种视觉的信息,同时它也有声源定位的麦克风阵列,同样它有各种力觉的传感器,比如说在它的手、每个关节能感受到各种力,然后在手部操作的过程中实际上也可以感觉到各种接触力、触觉、力觉等等,便于他能够做很精准的操作,这是感知方面。
另外在复杂场景的通过能力方面,我们实际上也做了非常多研究的工作,主要是它除了在平地上能够独立行走以外,我们基于状态记忆的预测性强化模仿学习的方式,我们按「天工」,按这个机器人能够适应各种不同的环境,包括像草地、沙地、石子路等等,让它能够在各种复杂的环境里面比较稳定的快速的去通过,我觉得这对机器人未来适应各种各样的场景具有非常重要的作用。
我们非常关注硬件精细的操作能力,包括上肢在各种不同的环境,比如说超市、危险的场景还有一些特别的场景,精细的操作能力,它跟环境的交互、精细的操作和感知能力。
刚才是硬件方面,在软件方面在多具身智能体这个母平台方面,我们也希望能打造一个「一脑多机」、「一脑多能」的具身智能体,「一脑多机」我们是希望具身智能体要能够适应各种形态的具身智能机器人,包括轮式还有其它的一些类型的机器人,「一脑多能」是希望具身智能体和我们的机器人能够在不同的环境里面比较好的完成它的一些工作。
在多具身智能体方面,我们实际上正在致力于四个方面技术的突破。
1、在长行程规划方面进行用户的拆解,做任务的理解和规划,尤其是像一些粗向的任务质量,比如说我要机器人去帮我拿一杯水甚至是往后规划20来步的长行程,其实对机器人的智能处理要求非常高。
2、希望它有规划能力,当机器人所面临的环境变化的时候,它需要去重新进行规划,而且这个频率要求蛮高的。
3、操作的多样性,我们希望说具身智能体能够让机器人适应各种不同的环境,能够满足多场景、多任务全面的操作能力,甚至是少样本或者是零样本的学习,都能够很好的去适应未来环境的变化。
4、比较好的执行效率和精度。尤其是在一些特定的工作场景,像工业场景可能需要精准的操作,希望它有能够比较快的节奏、节拍,能够满足生产工作任务的需求。
实现路径怎么样呢?我们会采用分布式部署的方式,在云端利用好大的算力还有超强知识库的作用,然后把大模型部署在云端,在边端可以兼顾效果和效率两个方向,所以我们可以把一些能够做规划、能够做用户理解的这些大模型放在边端,至于机型本体端,因为它能够部署的算力是非常有限的,所以我们希望把一些高频的用户或者是需要少算力的微模型、小模型都放在机器人本体端,通过分布式的实现,能够很好的去部署,这是不同任务的完成。
为了达到以上的效果,我们还要做两个基础的工作,首先是数据的收集。我们希望构建一个信息稠密度,大规模的,具有通用性的数据集。2024年4月份我们就发布了具身智能数据集方案,我们说数据集可以用金字塔的方式来表达数据集结构。底层是大量互联网数据,中层是仿真数据,上层是高质量真机操作数据。
建这个数据集是希望更多采用仿真数据或者真实场景数据,同时构建数据搜集母机。刚才说人形机器人平台天宫还有其他的合作伙伴已经联合十几家合作伙伴共同打造具身智能数据的母机还有数据应用。最终希望通过数据生态建设能够支持后面具身智能应用落地。也构建了像家庭商用的特种环境,工业应用场景,让不同的机器人在这个场景中不断运行,搜集这样的数据集。
另外一方面也建了虚实结合仿真技术,使具身智能数据集快速迭代。因为真实的机器人操作实际上搜集数据成本比较高,而且速度很慢。但是虚拟的仿真环境,它可以大规模、低成本地搜集各种各样的数据。所以我们利用已有资产构建了大量的虚拟仿真环境数据搜集场景。比如说抓取、分拣、搬运等等场景建了很多场景,让机器人在虚拟仿真环境运行,可以快速搜集各种各样数据。
机器人运动方面也构建了虚拟仿真环境,利用上千个机器人在这个场景进行强化学习、模仿学习方式,快速迭代机器人运动控制算法。由于构建虚实结合的仿真环境都是来自于实际场景需求,所以有很多接近实际情况的场景。在这种场景训练出来再导入实际真机上,效率就很高。
去年达到同样的效果,虚拟环境下这个效果是真机训练效果的上千倍,其实具身智能现在刚刚起步,还有非常多的工作非常多的问题等着我们解锁,我们也希望借着这个平台可以和国际上更多合作伙伴交流、交互。也希望和大家一起打造国际通用具身智能标准,包括数据标准、检测标准等等。正在联合合作伙伴建立开源开放的平台,包括操作系统、工具链等等。
同时,借鉴了其他领域成功经验,比如自动驾驶、智能汽车的具身智能发展经验,希望建立跨学科跨领域融合创新的模式。最终希望共同拓展全人类的应用场景。马斯克也说过,未来的社会机器人和人的数量比可能是一比一甚至二比一三比一,机器人的数量可能远远超过人类。我们未来面临的是硅基生命与碳基生命共存的社会,这个可能也面临着生产力结果变化,还有公众心态转变。实际上我们希望机器人应用在生产力结构变化方面,希望机器人尽快导入高危场景,对人类有伤害或者容易造成工伤的生产场景里。
另外,人形机器人法律法规方面伦理道德方面也希望有更多和大家交流探讨的过程,可以逐步完善法律法规的建设,给到更多的建议。以上是我要给大家汇报的内容,谢谢大家。
(本文根据录音整理)