当前位置: 华文世界 > 科技

智澄 AI CEO 胡鲁辉:下一个 GPT 是物理智能

2024-10-28科技

2022年底,ChatGPT 一经推出,不多久便点燃了全球的科技热情,一众围绕大模型创业的公司纷纷涌现。一片喧闹中,彼时在西雅图 Meta的胡鲁辉,将目光越过了生成式人工智能大模型,望向注重感知与理解世界的物理智能模型。

所谓物理智能(Physical Intelligence),其核心在于使机器能够感知、理解物理世界,并与之交互。近几年,物理智能成了热门话题,不仅能在各路技术大牛的演讲中频频听到,斯坦福大学李飞飞老师更是直接创办公司 World Labs,进行物理智能领域的探索。

在胡鲁辉老师看来,物理智能会是继 GPT 等信息智能之后、更具想象力的下一站,而机器人将是其最佳载体。正值国内具身智能浪潮,胡鲁辉决定结束西雅图的安逸生活,回国创业,亲自下场将自己的想法付诸实践。

今年4月,胡鲁辉在杭州创办智澄AI,短短四个月后即推出了 TR1 和 TR2 两款人工智能机器人产品,并开启了商业化进程。在他的设想里,智澄 AI 会依据实际应用场景,进行「沿途下蛋」,推出适配的机器人产品。

胡鲁辉在机器人圈或许是个「生面孔」,但在人工智能领域,他却是一个地道的行业老炮。作为一名资深的人工智能专家,胡鲁辉的职业旅程遍布了全球科技行业的一些重要地标。从早年留学美国,历经微软、亚马逊、华为美国研究院,再到卸任的 Meta,胡鲁辉在人工智能领域积淀了十余年行业经验。

此次创业,似乎是一场跨界行动,但对胡鲁辉而言,是因为看到了其中蕴藏的机会。「目前机器人有许多难点、痛点,如成本高、泛化性差,要解决这些问题,仅靠硬件远远不够,还需要从软件和模型入手。」

「我们的核心技术是物理智能,但我们不是只做物理智能模型,而是要做软硬件兼具的机器人。」这也是他对智澄 AI 的愿景,做一个具有挑战性的智能机器人,最终推动机器人时代的到来。

围绕此次创业,AI 科技评论与胡鲁辉进行了一次深度对谈。在交谈中,他向我们展现了对物理智能领域的深刻见解,同时,我们也能感受到胡鲁辉对此次创业的热情与信心。过往丰富的行业经历,让他为团队拉来了一众志同道合的优秀人才;此外,多元的产业背景、此前成功的创业经历,让他对如何运营一家商业化科技公司有了自己的解法。

以下是 AI 科技评论与胡鲁辉的对话。

相信机器人是未来

AI科技评论:您什么时候有了创业想法?

胡鲁辉:我一直都有创业的热情。早在 2018年 AI 1.0 时代,我第一次回国创业将人工智能与千亿级零售业务智慧升级相结合,此外在Meta、华为、微软、亚马逊等科技巨头的经历我也深度参与了AI模型训练、AI+信息流、AI+云计算、AI+物流商流等一次次技术变革浪潮。这次 AI 2.0 时代来临,我觉得机会比之前的浪潮更大,而且论创业环境,我认为国内机会更多,所以就决定回来了。

AI科技评论:您此前从事的方向更偏向于算法软件这块,现在做机器人会不会又是另一个领域?

胡鲁辉:其实机器人并非新东西,已有十来年、甚至更久。机器人此前也火过,后来由于各种原因又归于平静了。此次我们创业的初衷和主要目的,是因为相信机器人是未来、是下一个时代——机器人时代。

目前机器人发展处于一个尴尬阶段,因为有两大痛点。第一个是机器人特别贵,随便一个人形机器人也需要好几万、几十万。相比之下,一辆不错的汽车也就 20 来万,但一个能表演的机器人也都要几十万,甚至功能不够完善,只能表演;第二个痛点,是泛化技术有难度,可靠性、稳定性、工程性根本不行。然而这两个问题相互关联,要解决不能单靠硬件,还得要从模型和软件入手,让机器人变得更好、更智能,能够完成泛化作业。我们想解决机器人根本性问题,也就是机器人的数据和智能的问题,大数据和人工智能正是我的强项。

AI科技评论:您曾发表许多关于 AI 大模型相关内容,如今跨界做机器人,您的创业方向具体是什么?

胡鲁辉:针对机器人领域的挑战,我们认为人工智能是有效的解决方案,尤其是大模型。目前,大模型在人工智能领域备受关注,如 ChatGPT 和国内月之暗面、智谱等,它们主要开发多模态大模型,用于构建交互式对话系统,即 Chatbot。

但是我们的产品将采用不同的技术路径。我们专注于开发机器人,核心技术不是生成式多模态大模型,而是物理智能,即对物理世界的感知和理解。今年4月,我在生成式人工智能大会上也介绍了我们的创业方向,强调了物理智能在机器人技术中的重要性。我们的目标是通过物理智能技术,提升机器人的自主性和智能化水平。

AI科技评论:所以你们做的不是单纯的文本模型,而是理解物理世界的模型?

胡鲁辉:我们正在自研物理世界模型,取名为「澄灵物理世界模型」,它专注于理解物理世界,与多模态大模型不同。我们区分这两种智能:多模态大模型属于信息智能,如 Chatbot 这类人工智能,主要处理信息和交互;而我们的产品则属于物理智能,专注于感知和理解现实世界的物理规律。

AI科技评论:怎么理解物理智能?

胡鲁辉:人工智能的终极目标也许是实现通用人工智能,而当前阶段我们正处于生成式人工智能的发展时期。这一观点并非我首次提出,我与张亚勤院士交流时,了解到他在五年前就已提出人工智能的发展路径,从信息智能到物理智能,最终达到通用人工智能,这是一个逐步实现的过程。Meta 多年来也一直在讨论世界模型的概念。今年6月,黄仁勋在台湾的演讲中也提到,下一个人工智能的发展方向是物理智能。

生成式人工智能处理的是一维或二维信息的输入,如文字、图片、音频或视频,并输出相同类型的信息。物理智能则在两个层面上有所不同:首先,在输入层面,我们处理的是感知和理解世界的数据,包括视觉和触觉等感官信息;其次,在输出层面,我们生成的是TSD数据,即时间(T)序列(S)数据,这种数据可以直接用于控制机器人。

此外,生成式大模型和物理智能的产品形态和应用场景也有所不同。生成式大模型不需要实时反馈,例如ChatGPT中有些信息可能只更新到去年9月。而我们的系统必须实时处理输入信息,以确保机器人能够及时响应。

AI科技评论:你们机器人的研发是基于人工智能模型,演绎物理世界模型?

胡鲁辉:对的。我们核心技术是物理世界模型,同时也做本体,打造一系列产品,目前已经推出了机器人产品 TR1,TR2。

AI科技评论:你们已经验证了这条链路了是吗?

胡鲁辉:是的,除了清晰的 Northstar,也能逐步验证和产品落地。

下一个 GPT 是物理智能

AI科技评论:物理智能是不是一定会和机器人结合?

胡鲁辉:物理智能不一定非要和机器人结合,只是我认为机器人领域或具身智能是最理想的应用场景。好比,生成式人工智能目前最好的应用是 Chatbot,但其实它也有很多其他场景可以用。

AI科技评论:一个能够感知和理解世界的机器人,它的技术栈会包含哪几块?

胡鲁辉:我认为主要是三个方面:第一,与物理世界的交互。与信息智能不同,物理智能需要与现实世界进行互动;第二,算法能力。物理智能需要具备和生成式人工智能一样的算法能力,因为它得要有泛化能力和推理使用能力;第三,实时性。物理智能需要从三维、甚至四维(包含时空)的角度理解信息,这与信息智能有本质的不同,因而要能够实时处理和响应信息。

AI科技评论:其实这也是具身智能追求的目标。

胡鲁辉:对,这就是个通用人工智能。

AI科技评论:您是什么时候有了要做物理智能的这一想法?

胡鲁辉:2022年年底,ChatGPT出来的时候。ChatGPT一经推出就在美国迅速走红,因为大家看到了它不错的泛化能力。国内对它的关注应该是在几个月后逐渐升温。当时我还在西雅图,我开始思考我们应该如何跟进这一趋势,也有不少创业公司开始围绕 ChatGPT 进行创业。

那时,我也在 Meta 了解到世界模型的概念,而 Meta 首席 AI 科学家杨立昆对大模型并不特别热衷。我也认为,继 ChatGPT 之后,下一个重要的发展将是物理智能,它将拥有更广泛的应用前景。

AI科技评论:您会认为大模型对于机器人的发展是一个机遇?

胡鲁辉:大模型是一种技术手段,类似于我们开发的世界模型,它也是一种大模型的表现形式,尽管具体的实现方式有所不同。这些模型都属于基础模型(foundation model),我们自主研发的世界模型同样具备这样的基础模型特性。

AI科技评论:您怎么看待通用人工智能与通用机器人间的关系?

胡鲁辉:通用人工智能是人工智能领域的终极目标,它指的是达到人类水平的智能,这主要是从技术层面来讲的。而通用机器人则是指具体的产品或应用。无论是通用人工智能还是通用机器人,它们的核心目标都是实现「通用性」,而实现这一目标的关键在于掌握通用人工智能的技术。

AI科技评论:基于物理世界模型开发机器人的路径,国内目前还没有相似公司?

胡鲁辉:应该是没有的。由于我司比较低调,我先提出这个想法时,并没有引起太多人的兴趣。但自从李飞飞老师和一些美国企业开始讨论这个概念后,它就迅速受到了广泛关注。

AI科技评论:在这波具身智能浪潮中,你们的优势是什么?

胡鲁辉:我觉得我们的优势还是蛮多的,主要是四个方面。第一,我们专注于物理智能领域,这是我们的核心技术和主要创新点;第二,我们的团队成员基本都是来自顶级企业的高管,不仅拥有丰富的行业经验,也有很多业务资源;第三,我们在敏捷交付方面展现出了强大的工程化实力,TR1 和 TR2 的出色表现证明了我们的执行力和交付能力;第四,我们与哈佛、清华等顶尖高校建立了合作关系,并得到了地方政府的支持,这为我们提供了强大的资源后盾。

让通用世界模型成为硬件平台

AI科技评论:你们团队今年才成立,但产品发布很快,你们是不是很早就布局了?

胡鲁辉:应该说是我们的团队非常优秀,并且我们采用了亚马逊的敏捷开发模式。亚马逊的开发模式使我们每两个月进行一次迭代,我们从今年5月份开始,大约两个月推出一款新产品的节奏。在四个月的时间里,我们成功推出了 TR1 和 TR2 两款产品原型。

AI科技评论:你们现在团队规模有多大?

胡鲁辉:现在有 20 来人,基本以研发人员为主,研发团队都是硕士以上,毕业于国内外名校。

AI科技评论:TR1 和 TR2 两款产品已经量产了吗?

胡鲁辉:目前我们已经开始与意向客户进行合作落地。

AI科技评论:这两款产品的功能定位是什么?

胡鲁辉:我们致力于开发通用人工智能和通用机器人,是因为想推动机器人时代的到来。与许多仅用于表演和研发的机器人不同,我们的目标是让机器人能够实际执行任务。要实现这一点,机器人的「手」是最关键的部分,因此我们的开发从手臂开始。我们的产品 TR1 是一款单臂机器人,而 TR2 则是一款双臂机器人。我们希望能够开发出更复杂、更具挑战性的机器人,这也是我们的愿景。

AI科技评论:那你们是做专用机器人,还是通用机器人?

胡鲁辉:我们并不局限于机器人本体,而是会依据业务场景来做不同的机器人。

移动互联网时代的一大标志是 iPhone 的到来,iPhone 带来的是硬件平台化,上面可以有不同app,而每一个app对应一个应用,说白了就是一个特定业务场景的解决方案。因此,我们希望将这一概念应用到物理世界智能领域,打造一个平台化的模型,支持不同的硬件和机器人,以适应配送、工厂作业、家庭服务等多种场景。

AI科技评论:听起来,你们是以人工智能算法为中心,再加不同本体,如人形、四足等,你们自己也做本体吗?

胡鲁辉:我们也会做本体。我们自己做设计,但我们不做生产。

AI科技评论:你们技术核心是不是在算法驱动这块?

胡鲁辉:应该说是物理智能层面,我们要打造物理智能,也就是理解物理世界的人工智能。

AI科技评论:你们接下来的产品计划是什么?

胡鲁辉:我们的 TR1 和 TR2 产品将会持续进行迭代升级,在这个过程中,我们会继续投入创新和研发工作。同时,我们会将产品与实际应用场景结合,逐步推动商业化进程,「沿途下蛋」。目前,我们已经收到了多家企业的合作意向。

AI科技评论:您觉得国内机器人领域的融资环境好吗?你们融资困难吗?

胡鲁辉:整体环境我觉得一般,应该说没有以前好,但现在人工智能、AI 2.0还是很火爆的。

AI科技评论:与国内厂商竞争,你们会遇到什么挑战?

胡鲁辉:我们的发展主要受两大因素影响。一是科技发展的内在趋势,二是商业环境的实际需求。作为一家商业化的科技公司,我们不仅要适应市场的变化,还要在技术上不断实现突破。当然,这种情况也是许多企业在发展过程中需要面对的挑战。

雷峰网雷峰网