AI教母李飞飞创业首秀，「空间智能」需要哪些能力

2024-05-12科技

著名华裔人工智能科学家李飞飞正创办一家人工智能公司的消息在坊间流传，据称李飞飞将利用类似人类的视觉数据处理技术，使AI具备高级推理能力。这种AI算法使用的概念被称为「空间智能」。

目前，李飞飞为这家创企筹集了种子轮融资。三位消息人士称，投资方包括硅谷风投公司Andreessen Horowitz，以及李飞飞去年以科学合伙人身份加入的加拿大公司Radical Ventures（一家专注于人工智能和相关创新的独立基金）。公司名字暂时未向外界披露。

AI教母创业首秀

人工智能热引发创业狂潮，每日入场的新丁老兵不知凡几，仅凭创业就引发业内广泛关注，究其原因，是其创始人李飞飞的履历实在惊人。

李飞飞是人工智能领域的先驱，主攻计算机视觉、认知神经科学和机器学习领域。2006年，李飞飞领导创建了ImageNet（用于视觉对象识别软件研究的大型可视化数据库）的大规模图像数据集，开创了第一代能够可靠识别物体的计算机视觉技术。截至目前，ImageNet图像识别数据库已成为全球最大的图像识别数据库，包含21800个类别，超过1400万张图像，为AI深度学习模型的训练提供了关键支持，被认为是推动计算机视觉识别领域前进的里程碑。当前AI领域众多亮眼明星，如英伟达通用具身智能体研究实验室GEAR的领导者范麟熙和朱玉可，先后在OpenAI、特斯拉任职的Andrej Karpathy，Pika创始人郭文景都曾师从李飞飞。「AI教母」之称，李飞飞实至名归。

李飞飞新公司要做的「空间智能」，目前已在演讲中被频繁提到。2024年4月在温哥华举行的TED大会中，李飞飞发表了空间智能方向的主题演讲。李飞飞对「空间智能」的描述，是从物体之间的关系中获得预测和洞察力的能力，涉及的算法能合理推断出图像和文字在三维环境中的样子，并根据这些预测采取行动。而人工智能对「空间智能」理解的进步，正在催化机器人学习，让我们更接近一个人工智能不仅可以看到、创造，还与周围的物理世界互动的世界。

为了帮助观众理解「空间智能」，李飞飞在演讲中展示了一张「猫咪伸出爪子试图把玻璃杯推向桌子边缘」的照片。她解释，人类大脑在瞬间可以评估玻璃杯的几何形状，在三维世界的位置，与桌子、猫咪和其他物体的关系，并预测接下来会发生什么，采取行动制止。在「空间智能」的驱动下，大自然创造了视觉与行为的良性循环。李飞飞的团队教计算机如何在三维世界中行动，如利用大型语言模型让机械臂执行任务，根据口头指令开门和制作三明治，这就是「空间智能」。

空间计算——空间智能的底座

空间智能的目标不是抽象出对场景的理解，而是不断捕捉正确的信息，并正确地表示信息，以实现实时解释和行动。空间智能考验的是多领域软硬件的综合能力。

空间计算是使人类能够在三维空间与计算机交互的一组技术，包括三维重建、空间感知、用户感知、空间数据管理等所有使人类、虚拟生物或机器人在真实或虚拟世界中移动的软、硬件技术，侧重对现实世界的三维空间信息的获取、处理、分析和理解。

空间计算硬件功能的提升，能带来更为身临其境和交互式的数字体验。空间计算的基础是设备能使用实时3D渲染在三维空间生成虚拟对象，通过摄像头计算机视觉或激光雷达技术，实时扫描周围环境，计算它们在空间中的位置，空间跟踪生成唯一参考点的点云，通过控制器输入、手部跟踪输入和眼动跟踪输入等，实现数字内容的沉浸式自然交互。

2024年英伟达GTC开发者大会的炉边谈话中，李飞飞提到：「用大数据进行扩展时，我想看到的是结构化建模，或着说偏向于三维感知和结构的模型与大数据相结合」。

建模世界物体存在局限性，「空间智能」需要基于世界数据、多模态数据的人工智能模型架构，应对复杂多变的物体识别、场景感知等挑战。模型需要大量高质量标注数据进行训练，对各种噪声、遮挡等情况保持鲁棒避免误识别，进行图像、文本等多模态学习等。

帝国理工学院计算机系机器人视觉教授安德鲁J·戴维森在论文中提到，空间智能通过训练一个RNN（递归神经网络）或类似网络，从实时输入的数据中顺序产生有用输出，要求它在其内部状态内捕获一组持续的概念，这些概念必须与周围环境的形状和质量密切相关。空间智能高效的关键，在于所需算法中识别计算和数据移动的图数据结构，并尽可能地利用或设计具有相同属性的处理硬件，尽量减少架构周围的数据移动。

空间智能要走增量式进化路线，需要在AI设计中增加自由度。未来空间智能系统设计需要考虑六个方面。第一，需要包含一个或多个摄像头及辅助传感器，与嵌入式移动实体（如机器人或增强现实系统）中的小型低功耗封装的处理架构紧密集成。第二，实时系统需使用几何和语义信息维护和更新世界模型，并根据板载传感器测量估算其在模型中的位置。第三，理想状态下，系统要为环境中所有对象的身份、位置、形状和运动提供完整的语义模型。第四，模型的表示要接近度量标准，以便快速推理预测系统感兴趣的内容。第五，专注保留几何和语义的最高质量，即当前观察到的场景及近期交互，其余部分存储在低质量级别的层次结构，在重新访问时快速升级。第六，每个输入的视觉数据会自动根据预测场景进行跟踪检查，及时响应其环境变化。

视觉智能——空间智能的「北极星」

「空间智能」是比传统视觉识别更高级的视觉智能，机器可以像人类一样进行复杂的视觉推理，从而采取贴合实际的行动。2022年，李飞飞在【寻找计算机视觉的北极星】论文指出，具身智能、视觉推理、场景理解是CV（计算机视觉）发展的三颗北极星（研究人员专注于解决一个科学学科中的关键问题，可以激发研究热情并取得突破性的进展），这三大领域或将成为「空间智能」发展的基础能力。

具身智能，即能够用于导航、操作和执行指令等任务的机器人。机器人并不是指有头、两条腿走路的人形机器人，任何在空间中移动的有形智能机器都是具身智能的形式，包括自动驾驶汽车、机器人吸尘器、工厂中的机械臂等。具身智能的研究需要解决人类任务的复杂多样性，小到折叠衣服，大到探索新城市。

视觉推理包括三大类。三维关系理解，即理解二维场景中的三维空间关系，如理解「将左边的金属杯拿回来」的指令。社交智能，即理解人物间的关系和意图，如判断人物间的亲情关系或预测人物行为，一个女人搂着腿上的小女孩，两人可能是母女关系，一个男人打开冰箱，他可能是饿了。认知功能，计算机视觉不仅是感知，更是认知，需要理解场景的意义和背后的推理过程。当然，执行这些指令需要比视觉更多的东西，但视觉是其中的重要组成部分。

作者：于帆

编辑：高珊珊

监制：刘晶