2024新的一年注定将会不平凡!
人形机器人似乎已经站在了技术与梦想的十字路口。
以往科幻片中那些 机器仆人,似乎真的走进现实了, 炒虾、叠衣服、煮咖啡,做家务……等等。
让我们想象一下,你在周末刚刚睡醒,一个人形机器人走了进来,并且端着一杯热腾腾的咖啡走到了你面前。
听起来像是科幻片,对吧?
感觉这种情况似乎很遥远。
但今年一月,Figure公司的一款煮咖啡机器人Figure 01,让这样的场景成为了现实。
在看了10小时的人类演示视频后,该机器人可以自主打开咖啡机盖,放入咖啡包,按下开始按钮,一气呵成地完成整个煮咖啡过程。
难得的是,当咖啡包没放准时候,它甚至还会自动纠正。
而在这类「细活「上,国产机器人其实也显现出了不俗的实力。
例如去年智元机器人的远征AI,就在演示中展示了多个生活化的应用场景。
例如在厨房里打个鸡蛋什么的。
给家里老人端茶送水什么的,也不在话下。
即使是在实验室里制备样本这样的精细操作,也照样手到擒来。
同样在2023世界机器人大会上,一个名叫MagicLab的国产人形机器人,也十分娴熟地演示了咖啡拉花手艺:
其动作之流畅、自如,实在让人感动。
除了这种需要灵巧和精准度的操作外,某些很需要「力量」的场景,人形机器人也开始崭露头角。
例如波士顿动力的机器人,在搬运物体方面就是目前的行业翘楚。
这矫健的身手,提着重物一路小跑上楼梯,过独木桥,也完全不带含糊的。
到达目的地后,还十分聪明地来了个回身跳,用转身时的惯性将包甩到了高处。
凡此种种,无不让人惊呼:「卧槽!难道科幻片就要成真了?」
那么,为何人形机器人,会在2023集中地涌现出各种「惊喜」?种种华丽的技术奇观背后,人形机器人,真的要从科幻走进现实了吗?
变革元年2023
如果要论2023年,人形机器人最大的变数是什么,哪恐怕就是 AI大模型的应用 。
从物理维度上说,人形机器人由三个模块组成,分别是「肢体」「小脑」和「大脑」,而大模型的出现,相当于给人形机器人换了个「大脑」。
而这,也是机器人具备自主感知和决策能力的关键。
换句话说,以后人类想让机器人学一种新活,只需要让它观察人类的范例,并在实践中不断从错误中学习,逐步提高自己的技能即可。
而这在大模型没出现之前,是不可想象的。
从总体上而言,人形机器人的发展,大致分为了
「仿
人」、「类人」、「真人」三个阶段,
当前处于「仿人」并走向「类人」阶段。
在仿人阶段,人形机器人执行任务,通常依赖于
预先编写的程序
和有限的自动化技术。
试想一下,倘若你想让机器人帮你进厨房里炒菜,机器人的每一个动作,如切菜、搅拌、烹饪等,都需要事先进行详细的编程。
这些编程指令包括如何移动机械手臂、如何控制力度、速度等各种参数的具体信息。
程序之外的情况(比如今天的肉更难切一些),机器人都可能无法有效地应对。每遇到个新情况,你就得重新编程,告诉机器人该怎么做,这多不方便啊……
那大模型是怎么解决这一问题的?
具体来说,现阶段大模型训练机器人的方式主要有两种:
多模态学习、端到端学习。
所谓多模态学习,利用视觉语言模型(VLM)进行场景理解,将描述输入至大型语言模型(LLM)以得到自然语言指令,来让机器人完成各种动作。
这方面比较突出的代表,是DeepMind的
RT-2模型
(Robotics Transformers)。
通过这个模型,机器人可以从网络和机器人数据中的各种视频中学习,并将学到的知识转化为机器人控制的通用指令。
具体来说,这个系统就像是给机器人装上了一套高级的大脑和眼睛。首先,它的眼睛(VLM)能看懂周围的环境,比如看到桌子上有个杯子,知道杯子在哪里,长什么样。
然后,它的大脑(LLM)会根据眼睛看到的信息,通过编码器-解码器结构,将图像特征转换成语言描述,用人类的语言来描述这个场景,比如「拿起杯子」。
最后,这个大脑还会告诉机器人怎么动,比如怎么伸手,怎么用力,确保机器人能正确地把杯子拿起来。
不过,在具体控制机器人时,RT-2本身并不直接获取或调整机器人硬件的具体参数,如电机的电压或电流。这些硬件参数的调整通常由机器人的控制系统负责,而RT-2模型提供的是高层次的动作指令。
在实际应用中,这些指令会被机器人的控制系统解析,并转换为具体的硬件控制信号,以驱动机器人执行任务。
端到端学习,就是试图直接从输入(如传感器数据、图像、视频等)到输出(如动作、决策等)构建一个完整的模型。
例如之前提到的煮咖啡的Figure 01 机器人,就是一个明显的端到端学习的例子。
在这个过程中,模型会通过观看人类煮咖啡的视频,逐渐学会其中的所有步骤。而要实现这点,
最关键的一步,就是模仿学习。
一般来说,模仿学习大致分为如下步骤:
首先,系统通过摄像头录制视频,或直接从人类操作者那里收集传感器数据。
对于某些难以或无法直接获取专家动作数据的场景,例如自动驾驶、医疗手术等,模仿学习甚至能直接跳过后一步,直接通过看视频学会相应的动作。
在具体学习过程中,首先,机器会从观察数据中提取关键特征,这些特征可以是图像、声音、以及物体的位置、运动轨迹、环境布局等。
之后,系统会分析数据,同时开始模型的训练,并将输入数据映射到输出行为。
在这里,数据到动作的映射,可以被视为一种物理上的因果关系。例如,当咖啡机处于特定的状态(比如水温达到一定温度)时,应该执行特定的动作(比如开始泵送水)。
一旦模型被训练好,机器人就可以开始模仿观察到的「因果」。并在实际执行任务过程中,根据反馈不断调整和优化。
可以说,正是由于有了大模型的加持,人形机器人才真正从一个亦趋亦步的「机器」,开始变得像一个会学习和应变的「人」。