AI教母李飛飛創業首秀，「空間智能」需要哪些能力

2024-05-12科技

著名華裔人工智能科學家李飛飛正創辦一家人工智能公司的訊息在坊間流傳，據稱李飛飛將利用類似人類的視覺數據處理技術，使AI具備高級推理能力。這種AI演算法使用的概念被稱為「空間智能」。

目前，李飛飛為這家創企籌集了種子輪融資。三位訊息人士稱，投資方包括矽谷風投公司Andreessen Horowitz，以及李飛飛去年以科學合夥人身份加入的加拿大公司Radical Ventures（一家專註於人工智能和相關創新的獨立基金）。公司名字暫時未向外界披露。

AI教母創業首秀

人工智能熱引發創業狂潮，每日入場的新丁老兵不知凡幾，僅憑創業就引發業內廣泛關註，究其原因，是其創始人李飛飛的履歷實在驚人。

李飛飛是人工智能領域的先驅，主攻電腦視覺、認知神經科學和機器學習領域。2006年，李飛飛領導建立了ImageNet（用於視覺物件辨識軟件研究的大型視覺化數據庫）的大規模影像數據集，開創了第一代能夠可靠辨識物體的電腦視覺技術。截至目前，ImageNet影像辨識數據庫已成為全球最大的影像辨識數據庫，包含21800個類別，超過1400萬張影像，為AI深度學習模型的訓練提供了關鍵支持，被認為是推動電腦視覺辨識領域前進的裏程碑。當前AI領域眾多亮眼明星，如輝達通用具身智能體研究實驗室GEAR的領導者範麟熙和朱玉可，先後在OpenAI、特斯拉任職的Andrej Karpathy，Pika創始人郭文景都曾師從李飛飛。「AI教母」之稱，李飛飛實至名歸。

李飛飛新公司要做的「空間智能」，目前已在演講中被頻繁提到。2024年4月在溫哥華舉行的TED大會中，李飛飛發表了空間智能方向的主題演講。李飛飛對「空間智能」的描述，是從物體之間的關系中獲得預測和洞察力的能力，涉及的演算法能合理推斷出影像和文字在三維環境中的樣子，並根據這些預測采取行動。而人工智能對「空間智能」理解的進步，正在催化機器人學習，讓我們更接近一個人工智能不僅可以看到、創造，還與周圍的物理世界互動的世界。

為了幫助觀眾理解「空間智能」，李飛飛在演講中展示了一張「貓咪伸出爪子試圖把玻璃杯推向桌子邊緣」的照片。她解釋，人類大腦在瞬間可以評估玻璃杯的幾何形狀，在三維世界的位置，與桌子、貓咪和其他物體的關系，並預測接下來會發生什麽，采取行動制止。在「空間智能」的驅動下，大自然創造了視覺與行為的良性迴圈。李飛飛的團隊教電腦如何在三維世界中行動，如利用大型語言模型讓機械臂執行任務，根據口頭指令開門和制作三明治，這就是「空間智能」。

空間計算——空間智能的底座

空間智能的目標不是抽象出對場景的理解，而是不斷捕捉正確的資訊，並正確地表示資訊，以實作即時解釋和行動。空間智能考驗的是多領域軟硬件的綜合能力。

空間計算是使人類能夠在三維空間與電腦互動的一組技術，包括三維重建、空間感知、使用者感知、空間數據管理等所有使人類、虛擬生物或機器人在真實或虛擬世界中移動的軟、硬件技術，側重對現實世界的三維空間資訊的獲取、處理、分析和理解。

空間計算硬件功能的提升，能帶來更為身臨其境和互動式的數碼體驗。空間計算的基礎是器材能使用即時3D渲染在三維空間生成虛擬物件，透過網絡攝影機電腦視覺或激光雷達技術，即時掃描周圍環境，計算它們在空間中的位置，空間跟蹤生成唯一參考點的點雲，透過控制器輸入、手部跟蹤輸入和眼動跟蹤輸入等，實作數碼內容的沈浸式自然互動。

2024年輝達GTC開發者大會的爐邊談話中，李飛飛提到：「用大數據進行擴充套件時，我想看到的是結構化建模，或著說偏向於三維感知和結構的模型與大數據相結合」。

建模世界物體存在局限性，「空間智能」需要基於世界數據、多模態數據的人工智能模型架構，應對復雜多變的物體辨識、場景感知等挑戰。模型需要大量高質素標註數據進行訓練，對各種雜訊、遮擋等情況保持魯棒避免誤辨識，進行影像、文本等多模態學習等。

帝國理工學院電腦系機器人視覺教授安德魯J·戴維森在論文中提到，空間智能透過訓練一個RNN（遞迴神經網絡）或類似網絡，從即時輸入的數據中順序產生有用輸出，要求它在其內部狀態內捕獲一組持續的概念，這些概念必須與周圍環境的形狀和質素密切相關。空間智能高效的關鍵，在於所需演算法中辨識計算和數據移動的圖數據結構，並盡可能地利用或設計具有相同內容的處理硬件，盡量減少架構周圍的數據移動。

空間智能要走增量式前進演化路線，需要在AI設計中增加自由度。未來空間智能系統設計需要考慮六個方面。第一，需要包含一個或多個網絡攝影機及輔助傳感器，與嵌入式移動實體（如機器人或增強現實系統）中的小型低功耗封裝的處理架構緊密整合。第二，即時系統需使用幾何和語意資訊維護和更新世界模型，並根據板載傳感器測量估算其在模型中的位置。第三，理想狀態下，系統要為環境中所有物件的身份、位置、形狀和運動提供完整的語意模型。第四，模型的表示要接近度量標準，以便快速推理預測系統感興趣的內容。第五，專註保留幾何和語意的最高質素，即當前觀察到的場景及近期互動，其余部份儲存在低質素級別的階層，在重新存取時快速升級。第六，每個輸入的視覺數據會自動根據預測場景進行跟蹤檢查，及時響應其環境變化。

視覺智能——空間智能的「北極星」

「空間智能」是比傳統視覺辨識更高級的視覺智能，機器可以像人類一樣進行復雜的視覺推理，從而采取貼合實際的行動。2022年，李飛飛在【尋找電腦視覺的北極星】論文指出，具身智能、視覺推理、場景理解是CV（電腦視覺）發展的三顆北極星（研究人員專註於解決一個科學學科中的關鍵問題，可以激發研究熱情並取得突破性的進展），這三大領域或將成為「空間智能」發展的基礎能力。

具身智能，即能夠用於導航、操作和執行指令等任務的機器人。機器人並不是指有頭、兩條腿走路的人形機器人，任何在空間中移動的有形智能機器都是具身智能的形式，包括自動駕駛汽車、機器人吸塵器、工廠中的機械臂等。具身智能的研究需要解決人類任務的復雜多樣性，小到折疊衣服，大到探索新城市。

視覺推理包括三大類。三維關系理解，即理解二維場景中的三維空間關系，如理解「將左邊的金屬杯拿回來」的指令。社交智能，即理解人物間的關系和意圖，如判斷人物間的親情關系或預測人物行為，一個女人摟著腿上的小女孩，兩人可能是母女關系，一個男人開啟冰箱，他可能是餓了。認知功能，電腦視覺不僅是感知，更是認知，需要理解場景的意義和背後的推理過程。當然，執行這些指令需要比視覺更多的東西，但視覺是其中的重要組成部份。

作者：於帆

編輯：高珊珊

監制：劉晶