當前位置: 華文世界 > 科技

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

2024-10-12科技

作者 | 許麗思
編輯 | 漠影

在柏拉圖的 洞穴隱喻 裏,一群一輩子沒出過山洞的人,對外界唯一的感知來源是投射在洞裏墻壁上的影子。他們可以借助影子了解到外界的一些情況,但影子對真實世界的投射不一定是完全真實的。

現在的人工智能,也像處於「洞穴」之中,它對外界的理解來自於人為提供的 二手資訊 ,還沒辦法直接去感受真實世界、獲取 一手資訊

而對 胡魯輝 來說,他想做的就是讓人工智能可以 直接感知、理解物理世界 ,然後進行互動,從而逐步接近 通用人工智能

在清華大學、美國留學深造後,進入微軟、亞馬遜、華為美國研究院、Meta這樣的頂尖科技巨頭擔任高管,胡魯輝的履歷堪稱優秀。

前年年底,他萌發了「 理解物理世界 」的想法。今年,他下決心回國再創業,創辦了 智澄AI ,「澄」的意思就是逐步走向真正的智能。「目前,國內還沒有類似企業。我們對標的是美國 李飛飛 老師創辦的空間智能公司。」胡魯輝說。

AI 2.0時代的到來意味著什麽?給機器人裝上模型就可以讓它實作具身智能?通用人工智能將會創造出機器人的「iPhone時刻」?最近,機器人前瞻和智澄AI創始人胡魯輝進行了一場深入交談,從他毅然轉向的事業發展路徑背後,看到了從多模態大模型到物理智能,實作通用人工智能的新答案。

▲前Meta首席工程師、智澄AI創始人 胡魯輝

一、擔任過多家科技巨頭高管,手握30+專利

早年在清華大學畢業後,胡魯輝就收到了美國西北大學等多所高校博士錄取通知,赴美深造。畢業後,他選擇留在西雅圖,在這樣一座匯集了一眾世界頂尖科技巨頭的城市工作。

他先是在 微軟 亞馬遜 總部工作了十來年,後面又加入 華為美國研究院 擔任首席架構師兼技術長,最近的一段經歷是在 Meta 擔任首席工程負責人,負責數據人工智能方面的工作。

除了各大科技巨頭的高管頭銜,他的從業生涯中濃墨重彩的一筆,是在美國獲得的三十多項發明專利及申請。在這些專利裏,胡魯輝作為主要負責人,基本都是第一作者。

胡魯輝回憶起在 2010年前後 ,負責了一個亞馬遜線下零售的專案。原本亞馬遜主攻線上業務,後來想要拓展以無人店為代表的線下業務。但管理線下的商品銷售就需要人工流程,這可能會耗費時間和成本,並且可能難以準確地做出商業決策。

最初,他選擇用軟件處理這種問題。後來,他開始研發人工智能,還獲得了一個「用於線下零售業務的數據驅動和自適應機器學習(ML)平台和技術」的專利,可以讓多個機器學習演算法為線下零售提供多樣化的支持。

這是胡魯輝第一個與AI相關的專利發明,也是從這裏開始,他可以說是真正對AI領域產生了濃厚的興趣。那個時候,AI尚未到火爆、備受關註的程度。

▲胡魯輝第一個與AI相關的專利

二、瞄準AI 2.0的機會,再次投身創業浪潮

2015年 ,以CNN摺積神經網絡模型為核心的電腦視覺技術,正式拉開了 AI 1.0感知智能時代 的序幕。2016年,AlphaGo擊敗圍棋世界冠軍李世石,AI迎來了重要的高光時刻,受到廣泛關註。

在AI 1.0時代,胡魯輝看中了其中的機遇,選擇在 2018年 回國,奔赴上海、北京兩地創業。

「那次創業,主要聚焦在 智慧零售 方面的人工智能技術的套用,」胡魯輝說,「當時AI技術的特點是 垂直性特別強 ,需要在垂直領域進行套用,也和永輝、京東、騰訊等平台進行了合作。」

而現在,當AI已經邁入 2.0時代 ,帶來了平台式的變革。

在胡魯輝看來,AI 2.0時代蘊藏著比上一個時代更多的機會,會對人類的生活、工作、產業等產生更大的影響,並且還更容易落地。

所以,他的第二次創業開始了。他找到了之前在微軟、華為、Meta的一些同事,組成了公司的核心創始團隊,公司的研發團隊也基本都是畢業於國內外知名高校的碩士、博士、博士後。

面對深圳、上海等地發出的落地邀約,老家在浙江寧波的胡魯輝最終決定將公司設立在杭州的菜鳥智谷產業園。

智澄AI的成立,還得到了投資界、政府部門等多方面的支持。

胡魯輝表示,公司在成立前就已成功融資,不久後投資人還繼續追加投資。同時當地政府部門也很重視,把智澄評為AI杭州市余杭區海外高層次領軍人才專案,還在資金等多方面給予大力支持。

▲今年7月,智澄AI在杭州開業

三、低成本機械臂,也能實作具身智能

在AI 2.0時代,下一個爆發點及落地大方向將是 AI for Robotics ,而智澄AI正是瞄準了這一點。

「我們是一家通用人工智能公司,核心技術是理解物理世界的模型,」胡魯輝解釋道,「但是我們的產品並非是模型,而是 具身智能 ,也就是 人工智能機器人 。」

從前年年底,胡魯輝就誕生了讓人工智能理解物理世界的想法,並開始思考如何實施。這就要求模型不僅理解編程或語言處理,更要 深入到物理世界的具體套用中去

今年5月 開始,智澄AI的人工智能機器人原型一(TR1)、原型二(TR2)基本完成,已經進入了生產環節,並且和一些企業達成了合作,開始了商業化之路。胡魯輝將智澄AI的人工智能機器人命名為TR,即Transforming Robot。

「雖然模型研發的時間比較長,但是整合智能本體的時間較短,叠代速度也很快,現在基本上 兩個月 就實作了一次叠代。」胡魯輝說。

▲智澄AI的TR2雙臂機器人

不久前,智澄AI聯合了來自哈佛大學、清華大學的人工智能專家,推出了一種低成本的 通用人工智能機器人學習框架(GRLF)

把這個框架裝在機械臂上,機械臂仿佛變成了具有視覺能力、感知能力的個體,能夠像人一樣去執行精細的模仿學習任務。

它可以完全擺脫對仿真環境的依賴,實作從數據采集、模型訓練到模型部署的端到端實景操作,還可以對多種物體進行放置、排序、操縱,具備了一定的通用能力。

▲裝上了通用人工智能機器人學習框架的機械臂正在執行不同的任務

縱觀目前的機器人行業,胡魯輝覺得,許多企業的產品還處於演示、研究和教育的階段,難以實作機器人真正的套用。機器人行業不僅面臨著成本高、價格高的挑戰,還存在泛化能力不足的問題,機器人難以適應不同場景需求和環境。

所以,他希望智澄AI能夠 將通用人工智能真正套用到大眾的工作和生活中 ,讓機器人實作像人一樣的智能。

「很多公司都專註於制造機器人,讓機器人能夠完成某項工作。但我們想做的是 能夠感知、理解物理世界的機器人 ,它具有推理和思考能力,能夠與外界進行智能的互動,而目前國內還沒有這類企業。」胡魯輝說。

在他的計劃裏,智澄AI會繼續圍繞實際套用場景、透過技術創新和突破來加快產品的叠代,並且繼續推進和不同企業的合作,讓產品的套用落到實地。

四、對標李飛飛,讓AI走出「洞穴」

要讓AI走出「洞穴」,就需要AI直接接觸真實的物理世界。

今年4月,「AI教母」 李飛飛 創辦了一家「致力於構建能夠感知、生成並與 3D 世界互動的大型世界模型的空間智能公司」—— World Labs

「我們現在看到的大型語言模型和多模態語言模型,它們是底層表達其實是一種一維表示,」李飛飛在此前接受的公開采訪中曾說道,「而空間智能是對世界的三維表達,從演算法的角度來看,這是在用不同方式處理數據並從中獲得不同類別的輸出,最後解決不同的問題。」

簡單來說,李飛飛的空間智能就是要讓人工智能直接繞過一切中間障礙,直接地感受、理解所身處的三維世界,然後采取一些行動。

而胡魯輝的想法,剛好和李飛飛不謀而合。

前年年底,他萌生出了「理解物理世界」的想法。「最初,我們關於物理智能的想法其實 沒有多少人接受 ,畢竟這是比較有挑戰性的,」胡魯輝說,「通用人工智能有不同的實作方式,很多人都在探索,但通常都會采用 大模型 的方式。」

但是他認為,現有的多模態大模型只能局限於訓練的範圍中,對外界的理解還是有很大局限性。 只有讓人工智能做真正理解物理世界,才能實作通用。

這也正是胡魯輝創辦智澄AI的願景所在。

不過,在走向通用人工智能的路上,還是面臨著不少的阻礙,不僅包括在算力、數據、演算法方面,也包括在真正的實際套用落地上。胡魯輝歸納出了「兩個20」來概括當前人工智能發展的差距:

第一個「20」是從 算力 的角度,他提到如果讓AI和人同時創作一首詩或一幅畫,人可能只需要要20瓦的電量,而AI需要耗費巨大的電量,並且像OpenAI大模型的訓練經常需要耗費數億美元。

第二個「20」是從 數據量 的角度,人類可能花費20小時就能掌握很復雜的事情,例如學車,但是AI可能要花費數億個小時的數據進行訓練。

要實作通用人工智能,還是道阻且長。

五、結語:AGI的到來,會是機器人的「iPhone」時刻」

通用人工智能,到底還需要多久才會到來呢?

沿著物理智能的路徑,胡魯輝覺得,可能還需要 3到5年 左右。而等到通用人工智能實作的那一刻的到來,也將會給機器人領域帶來顛覆性的變革。

這是機器人 「iPhone 時刻 」。就如同當年iPhone的橫空出世,它作為一個突破性的硬件平台,帶動了整個軟件套用生態的發展一樣,通用人工智能也會創造出一個蘊含著巨大價值的生態。

它作為一個相對標準化的模型、軟件,會走向平台化,可以廣泛地套用到不同的機器人上,重新定義人們的生活方式。

那個時候,機器人會成為一個更為廣泛的概念,不止是我們現在所熟悉的人形機器人,而是 一切都會走向機器人化 ,重新定義每個人的生活方式。

這個時刻的曙光,已經逐漸顯現了。