Waymo工程高管：Waymo拥有车载与云端双AI模型

2024-10-21科技

Waymo车载技术工程主管斯里坎特·提鲁玛

Waymo是Alphabet的子公司，始于2009年的Google自动驾驶项目。近几年它才开始向公众提供无人工安全员陪伴的乘车服务。8月，Waymo宣布，它每周在美国运营的几个城市里完成超过10万次的付费乘车。然而，随着Waymo扩展到新的城市，它需要让成千上万的新乘客克服坐在无人驾驶出租车里的不安感。

虽然Waymo过去对其AI驱动的自动驾驶技术运作方式有所保留，但如今公司认为，公开更多「幕后」的信息对于自动驾驶汽车的广泛接受非常重要。Waymo车载技术工程主管斯里坎特·提鲁玛莱（Srikanth Thirumalai）在接受【财富】采访时表示，在传达信息时优先考虑安全性（而非专注于AI），对建立乘客的信任至关重要。

「我们不想让人们偏离我们的初衷，」提鲁玛莱在首次接受采访时告诉【财富】。他在亚马逊工作了18年后，于一年前加入Waymo。「我们必须以‘嘿，我们正在负责任地开发这项技术’为首要信息。」

他还解释说，帮助更多人了解其AI驱动系统的工作原理，是公司15年努力构建「全球最值得信赖的司机」的下一阶段。「分享更多关于我们技术和安全性的信息对于建立乘客和运营社区的信任至关重要，」他说。

超越生成式AI的热潮

虽然目前Waymo暂时领先于自动驾驶领域的竞争对手，但自动驾驶汽车仍在持续开发中。从通用汽车、亚马逊、特斯拉到像Wayve这样的软件开发公司，所有这些公司都在投入数十亿美元开发自己的系统。而监管机构也在密切关注这些在特定区域内行驶的机器人汽车。

今年2月，通用汽车的Cruise机器人出租车在旧金山发生一起事故，撞到了一位被另一辆车撞飞到它前方的行人，导致该行人被拖行了20英尺。之后，加州机动车管理局吊销了Cruise的许可证。公司在全美范围内暂停了车队的运行，最近才在一些城市恢复了有安全员陪伴的测试。

Waymo目前尚未发生严重事故，但也有不少新闻报道。5月，一辆空载的Waymo出租车在亚利桑那州凤凰城撞上了一根电线杆，Waymo随后自愿召回并更新了其672辆自动驾驶车辆的全部软件。8月，有报道称，几辆Waymo汽车在旧金山的一处停车场互相按喇叭，扰乱了附近的居民（Waymo解释说，这是一项防止低速碰撞的安全功能的「意外后果」）。上周，一辆Waymo汽车在旧金山的公交车旁停下，导致视频中几位技术公司CEO试图移动它。Waymo代表称，「公交车的后门碰到了我们车辆的一侧，导致无法关闭。我们派出路边援助团队去取回车辆，但在他们到达前，旁观者摇晃了我们的车辆，使公交车能够继续行驶。」

提鲁玛莱此前在亚马逊专注于AI驱动的搜索和购物技术，他强调了在现实世界中开发安全可靠的产品这一挑战让他感到兴奋，这也是他加入Waymo的原因之一。同时，他补充说，自动驾驶汽车是摆脱生成式AI当前热潮的一种方式。

自动驾驶汽车提出了一个极端的「长尾」学习问题——那些罕见且不可预见的事件虽然发生率低，但在数量上却是众多的，且必须优先解决。这些车辆需要一种能够很好地「泛化」的AI，既能处理相对常见和可预测的情况，比如红灯停车或让行给行人，也能应对一些令人意外的场景，如轮椅上的人在夜间过马路，或者一棵倒下的树挡住了路，甚至是一群从卡车上逃跑的马戏团动物。

Waymo的双AI模型——车载与云端

为了应对可预测和「长尾」的驾驶情况，Waymo的技术堆栈包括车载的数十个传感器，这些传感器让车辆能够可视化其周围环境，并为AI系统提供全面的数据支持，帮助其实时做出决策。

这些传感器包括雷达、高清摄像头、其他视频摄像头和外部音频接收器，以及安装在车顶的LiDAR（光探测和测距）传感器，能够生成实时的360度三维视图并提供深度感知。这些传感器使Waymo Driver系统的视野重叠，以便它能够同时从不同的角度观察多达300米之外的物体、障碍物或地形特征（Waymo表示，下一代系统在晴天时的探测范围可达500米）。

传感器收集的数据来自Waymo每次行程中的不同场景。公司还通过合成数据对Waymo进行训练，模拟比它可能在凤凰城或旧金山遇到的情况更广泛的多样场景，例如不同的天气条件。

Waymo开发了一个名为「Waymo基础模型」的大规模AI模型，它支持车辆感知周围环境、预测其他道路使用者的行为、模拟场景并做出驾驶决策。这个大型模型的运作方式类似于大语言模型（LLM），比如ChatGPT，后者通过庞大的数据集进行训练，学习模式并做出预测。正如OpenAI和谷歌等公司构建了能够结合不同类型数据的新型多模态模型（例如文本与图像、音频或视频的结合），Waymo的AI整合了来自多个来源的传感器数据以理解其环境。

Waymo基础模型是一个大型模型，但当乘客进入Waymo时，汽车运行的是从更大的模型「提取」出来的较小的车载模型——因为它需要足够紧凑，以便在车辆的能量供应下运行。大型模型作为「教师」模型将其知识传授给较小的「学生」模型——这一过程在生成式AI领域中被广泛使用。较小的模型被优化为速度和效率，并在每辆车上实时运行，同时保留了驾驶决策所需的关键能力。

因此，感知与行为任务，包括感知物体、预测其他道路使用者的行动和规划车辆的下一步动作，都是在车载模型上实时完成的。较大的模型还可以模拟真实的驾驶环境，以虚拟测试和验证其决策，然后再将其部署到Waymo车辆上。车载模型意味着Waymo并不依赖于持续的无线网络连接来运行——如果连接暂时中断，Waymo不会因此停滞不前。

最终，提鲁玛莱解释说，Waymo的AI系统能够根据当时的情况选择它认为最佳的行驶轨迹。因涉及保密问题，Waymo不会透露有关模型的具体参数或其他细节。

「我看到了未来，不参与简直太愚蠢了」

Waymo的AI系统并非唯一一种应对自动驾驶的方式。例如，英国初创公司Wayve由微软和Meta首席科学家Yann LeCun支持，它不使用LiDAR（尽管它使用高清摄像头），而是依赖于已经在许多车辆中标配的摄像头和超声波传感器，并专注于开发一个单一生成式AI「世界模型」，该模型能够解释视觉数据并作为一个集成系统做出驾驶决策。特斯拉的自动驾驶系统（目前尚未具备无监督自动驾驶能力）不使用LiDAR，而依赖于传感器和一套八个摄像头，提供车辆周围360度的视野。随着特斯拉推进无监督自动驾驶的目标，它也开始测试基于神经网络的新AI系统。

然而，Wayve目前并没有像Waymo那样在路上运营数百辆自动驾驶出租车，而是专注于开发软件产品，计划部署在大型汽车制造商生产的车辆中。特斯拉的自动驾驶出租车预计至少还要几年才能上路。而Waymo的策略是「从我们试图解决的问题反向工作」，即「如何让这些车辆真正走向现实世界？」

对于提鲁玛莱来说，帮助Waymo利用AI实现其安全目标的机会是无法拒绝的。他表示：「我在亚马逊过得很好，并没有主动寻求改变。但Waymo找上门后，我被这个团队、他们的使命、他们迄今为止的成就震撼到了——很明显，在AI的推动下，他们将会成为世界变革的巨大力量。」

虽然我在陡峭的旧金山街道上曾有过紧张时刻，但提鲁玛莱却没有这样的担忧。他在与Waymo联合首席执行官德米特里·多尔戈夫（Dmitri Dolgov）面试期间第一次乘坐Waymo的体验，彻底让他大开眼界。

提鲁玛莱描述了他的Waymo体验：这辆车穿过旧金山的早高峰，驶上了电报山，一直到了俯瞰城市和海湾的科伊特塔。值得说明的是，Waymo的驾驶过程中并没有任何隐藏的幕后人类操作：「如果我们每个月要行驶数百万英里，这样的做法根本不可能扩展。」他说，不过他也强调，如果Waymo汽车遇到卡住的情况并需要额外的上下文信息，公司确实有远程操作员可以介入。

当Waymo安全地穿过狭窄的街道，预判行人并应对双排停车时，提鲁玛莱意识到自己正在经历一次非常特殊的乘车体验。他说：「我当时就在想，这些人已经把技术提升到了这种程度，这辆车的驾驶表现和人类一样好，甚至更好——而且他们是在AI刚刚起飞的时刻实现这一切的。」

提鲁玛莱回到家后，向他的妻子讲述了这次体验。「我说，天哪，我看到了未来，」他回忆道。「如果我不加入其中，那真是太愚蠢了。」