2024年，人形机器人将会如何影响我们？

2024-02-20科技

2024新的一年注定将会不平凡！

人形机器人似乎已经站在了技术与梦想的十字路口。

以往科幻片中那些机器仆人，似乎真的走进现实了，炒虾、叠衣服、煮咖啡，做家务……等等。

让我们想象一下，你在周末刚刚睡醒，一个人形机器人走了进来，并且端着一杯热腾腾的咖啡走到了你面前。

听起来像是科幻片，对吧？

感觉这种情况似乎很遥远。

但今年一月，Figure公司的一款煮咖啡机器人Figure 01，让这样的场景成为了现实。

在看了10小时的人类演示视频后，该机器人可以自主打开咖啡机盖，放入咖啡包，按下开始按钮，一气呵成地完成整个煮咖啡过程。

难得的是，当咖啡包没放准时候，它甚至还会自动纠正。

而在这类「细活「上，国产机器人其实也显现出了不俗的实力。

例如去年智元机器人的远征AI，就在演示中展示了多个生活化的应用场景。

例如在厨房里打个鸡蛋什么的。

给家里老人端茶送水什么的，也不在话下。

即使是在实验室里制备样本这样的精细操作，也照样手到擒来。

同样在2023世界机器人大会上，一个名叫MagicLab的国产人形机器人，也十分娴熟地演示了咖啡拉花手艺：

其动作之流畅、自如，实在让人感动。

除了这种需要灵巧和精准度的操作外，某些很需要「力量」的场景，人形机器人也开始崭露头角。

例如波士顿动力的机器人，在搬运物体方面就是目前的行业翘楚。

这矫健的身手，提着重物一路小跑上楼梯，过独木桥，也完全不带含糊的。

到达目的地后，还十分聪明地来了个回身跳，用转身时的惯性将包甩到了高处。

凡此种种，无不让人惊呼：「卧槽！难道科幻片就要成真了？」

那么，为何人形机器人，会在2023集中地涌现出各种「惊喜」？种种华丽的技术奇观背后，人形机器人，真的要从科幻走进现实了吗？

变革元年2023

如果要论2023年，人形机器人最大的变数是什么，哪恐怕就是 AI大模型的应用 。

从物理维度上说，人形机器人由三个模块组成，分别是「肢体」「小脑」和「大脑」，而大模型的出现，相当于给人形机器人换了个「大脑」。

而这，也是机器人具备自主感知和决策能力的关键。

换句话说，以后人类想让机器人学一种新活，只需要让它观察人类的范例，并在实践中不断从错误中学习，逐步提高自己的技能即可。

而这在大模型没出现之前，是不可想象的。

从总体上而言，人形机器人的发展，大致分为了「仿 人」、「类人」、「真人」三个阶段， 当前处于「仿人」并走向「类人」阶段。

在仿人阶段，人形机器人执行任务，通常依赖于 预先编写的程序 和有限的自动化技术。

试想一下，倘若你想让机器人帮你进厨房里炒菜，机器人的每一个动作，如切菜、搅拌、烹饪等，都需要事先进行详细的编程。

这些编程指令包括如何移动机械手臂、如何控制力度、速度等各种参数的具体信息。

程序之外的情况（比如今天的肉更难切一些），机器人都可能无法有效地应对。每遇到个新情况，你就得重新编程，告诉机器人该怎么做，这多不方便啊……

那大模型是怎么解决这一问题的？

具体来说，现阶段大模型训练机器人的方式主要有两种： 多模态学习、端到端学习。

所谓多模态学习，利用视觉语言模型（VLM）进行场景理解，将描述输入至大型语言模型（LLM）以得到自然语言指令，来让机器人完成各种动作。

这方面比较突出的代表，是DeepMind的 RT-2模型 （Robotics Transformers）。

通过这个模型，机器人可以从网络和机器人数据中的各种视频中学习，并将学到的知识转化为机器人控制的通用指令。

具体来说，这个系统就像是给机器人装上了一套高级的大脑和眼睛。首先，它的眼睛（VLM）能看懂周围的环境，比如看到桌子上有个杯子，知道杯子在哪里，长什么样。

然后，它的大脑（LLM）会根据眼睛看到的信息，通过编码器-解码器结构，将图像特征转换成语言描述，用人类的语言来描述这个场景，比如「拿起杯子」。

最后，这个大脑还会告诉机器人怎么动，比如怎么伸手，怎么用力，确保机器人能正确地把杯子拿起来。

不过，在具体控制机器人时，RT-2本身并不直接获取或调整机器人硬件的具体参数，如电机的电压或电流。这些硬件参数的调整通常由机器人的控制系统负责，而RT-2模型提供的是高层次的动作指令。

在实际应用中，这些指令会被机器人的控制系统解析，并转换为具体的硬件控制信号，以驱动机器人执行任务。

端到端学习，就是试图直接从输入（如传感器数据、图像、视频等）到输出（如动作、决策等）构建一个完整的模型。 例如之前提到的煮咖啡的Figure 01 机器人，就是一个明显的端到端学习的例子。

在这个过程中，模型会通过观看人类煮咖啡的视频，逐渐学会其中的所有步骤。而要实现这点， 最关键的一步，就是模仿学习。

一般来说，模仿学习大致分为如下步骤：

首先，系统通过摄像头录制视频，或直接从人类操作者那里收集传感器数据。

对于某些难以或无法直接获取专家动作数据的场景，例如自动驾驶、医疗手术等，模仿学习甚至能直接跳过后一步，直接通过看视频学会相应的动作。

在具体学习过程中，首先，机器会从观察数据中提取关键特征，这些特征可以是图像、声音、以及物体的位置、运动轨迹、环境布局等。

之后，系统会分析数据，同时开始模型的训练，并将输入数据映射到输出行为。

在这里，数据到动作的映射，可以被视为一种物理上的因果关系。例如，当咖啡机处于特定的状态（比如水温达到一定温度）时，应该执行特定的动作（比如开始泵送水）。

一旦模型被训练好，机器人就可以开始模仿观察到的「因果」。并在实际执行任务过程中，根据反馈不断调整和优化。

可以说，正是由于有了大模型的加持，人形机器人才真正从一个亦趋亦步的「机器」，开始变得像一个会学习和应变的「人」。