深圳教授,入局具身智慧
8月底,在北京一家餐廳,【21CBR】記者見到跨維智慧創始人賈奎。科研、教學、創業……他的日程表排得滿滿當當。
「晚上10點前,我都有事情做。」他創業後,工作量大增。
賈奎是學者型創業者。他畢業於倫敦大學,獲得電腦科學博士學位,曾在多家高校執教,是人工智慧、電腦視覺等領域專家,發表論文百余篇,在TIP、TMLR等學術期刊擔任副主編。
2021年6月,賈奎創立跨維智慧。從學者到創業者,從技術到產業,賈奎稱,轉型有兩個原因:
一是,近年來,AI「大廠」以豐厚的算力、數據資本發力,學界有滯後於產業界的趨勢。
二是自己也想嘗試新方法。「學術上,只要論證長期有用就行了,而企業的創新,要產生真正的社會價值,要考慮針對的人群,滿足的需求,產品的功能、價效比等因素。」
賈奎帶領的跨維智慧團隊,研發人員占比達70%以上,核心團隊成員多擁有頂尖高校人工智慧專業博士、碩士學歷。
以自研的DexVerse™具身智慧引擎為技術底座,跨維智慧已形成包括純視覺空間與具身智慧傳感器、新一代機器人控制器、PickWiz軟體、高精度通用移動操作機器人等在內的產品矩陣,並實作商業落地。
賈奎坦言,每天都在思考,產品如何卡準位置,實作商業化。
以下為其自述,經整理:
歸國創業
2016年,我啟程回國,進入華南理工大學,做電腦視覺方面的研究。
彼時,在人臉辨識、影像理解領域,國內「AI四小龍」做得很好。
我選擇了一條小眾賽道,將人工智慧技術套用於三維空間。影像是一個二維平面,三維就像一個杯子,是曲面、不規則影像。如何處理這樣的訊號?
這需要運用機器學習、電腦視覺、圖形學、機器人等交叉學科的知識。直至2015年,學術界才開始研究此類問題。
早期,團隊成立了「幾何感知與智慧實驗室」。當時,大廠尚未涉足這一領域,我們是國內最早將AI套用到三維空間的團隊。
文本、影像,是二維的,互聯網上有現成的海量數據。三維空間,是立體的,包含位置、角度、尺寸等資訊,需要精準標定,不能采用之前的方式獲取數據。
舉個例子,如果目標是讓機器人抓取世界上任何一個滑鼠,團隊就需要集合成千上萬、甚至世界上所有滑鼠的數據。這意味著,實驗室需要從早到晚,去不同的環境裏采集數據。
Sim2Real是適合空間智慧、具身智慧、機器人的範式,借助物理引擎、物理仿真,它能夠自動計算、自動生成數據,來訓練大模型。
就是說,滑鼠上面的顏色、紋理、材質,全部是解耦的。在引擎空間,你只用改變材質空間參數,就可以把一個木頭滑鼠變成金屬的。
到了2020年,我發現,做AI研究,需要足夠多的算力、數據以及場景,高校能做的事情有限,不如大廠。
隨著技術逐步成熟,我於2021年開啟創業之路。創業三年多,我逐漸適應了企業家身份。
初期,我像一個學者;現在,更看重商業化場景,解決客戶痛點才是最重要的。
創業艱難,我每天都在踩坑。碰到問題後,在實踐中學習。
經過多年歷練,我的能力變得更綜合、全面,臉皮厚了。有些性格弱點,克服不了的,可以透過其他人彌補,認清自己,有所不為,有所不能。
沿途下蛋
團隊研究的技術方向,跟具身智慧、空間智慧有關。
我們一開始就是按照Sim2Real(simulation to reality,從仿真到現實)的方式,希望透過智慧的「眼睛」,感知空間,實作通用的技能。
一家公司的CEO,需要具備技術洞察力,選擇恰當的技術路徑,針對某個場景或痛點,拿出解決方案。在走訪一系列套用領域後,我選擇從智慧制造開始。辦公司、在大廠上班與教書,是三種完全不同的生活。我既要找準商業化場景,也要找到合夥人。
跨維智慧聯合創始人吳迪,是相機硬體專家,曾在華為、騰訊等公司工作,擁有十余件發明專利。依托原有經驗及技術積澱,跨維推出了一系列3D成像和感知裝置。
做銷售業務,需要找有經驗的。聯合創始人解銳,是一名連續創業者,曾擔任動視雲科技聯合創始人,為通訊、雲端運算與人工智慧領域專家。
幾人組團創業,致力於給機器人安裝智慧「眼睛」,提升空間感知能力,錘煉智慧的「大腦」,習得「具身智慧」技能。
沿著這條路徑走,我們逐步實作了規模化商業落地。
目前,在多個商業場景中,跨維智慧已經實作了利用100%合成數據,在公釐/亞公釐的操作精度要求下,達到99.9%以上的任務成功率。
在虛擬空間層面,我們不斷錘煉「大腦」——底層自研的DexVerse™具身智慧引擎。這是公司的技術底座。
在工業和一些商業場景中,我們已實作了無需研發人員介入的自動化操作。只需輸入一個操作物件,系統就能自動生成數據、標註計算,並線上傳遞給相應的AI模型進行訓練。
整個過程無需儲存數據,高效且精準,是當前實作具身智慧通用化技能的最佳路徑之一。
我們還持續升級「眼睛」——純視覺空間智慧傳感器。
傳統的3D相機,需要光線投射,才能獲得3D訊號,作用距離有限,且容易受環境光的影響而跨維自研的純視覺空間智慧傳感器,利用兩個相機從不同角度捕捉影像,可以在復雜或半室外強光條件下成像,提升視覺系統的穩定性。
其最快可以實作每秒30幀頻率,接近人眼感知世界的方式。
這套3D成像和感知裝置,可以安裝在機器人身上,適配主流機械臂與機器人,指揮其在工業和商業場景裏運作。
以終為始
上一代的控制器,做一個從A點到B點的簡單動作,都需要機器人工程師單獨寫個程式。它沒有眼睛,透過特定程式,精確地做動作。
新一代機器人控制器,像人一樣有大腦、眼睛,可以指揮胳膊和手的動作,理解自然語言。
我們在研的新一代機器人控制器,有眼睛,還能透過自然語言的方式溝通,自動理解任務,並將其轉換成機器人可以執行的程式碼。
其將會落地兩個場景:工業柔性裝配和室內清潔操作。
在工業柔性裝配領域,即使要抓取的東西是無序的,Ropilot也可以指揮機械臂去完成動作。
如果機器人需要做好幾個動作,比如把記憶體條插入電腦,中間有幾根線擋著,其也能靈巧地撥開線,完成任務。
舉個例子,目前室內掃地機器人沒有胳膊,只能在地上操作。基於Ropilot產品,其在酒店場景下,可以完成清掃馬桶、更換牙刷等復雜動作。
終端客戶不關心技術路線,重視價格。
市場上存在著大量人不願意幹或者不能幹的場景。現在,年輕人寧願送外賣,也不去工廠幹活。這種情況下,客戶有強烈的需求,將機器人變得自動化、智慧化、無人化。
這是一個不可逆轉的趨勢。
商業變現上,跨維智慧出售成像感知套件,供應給整合商,安裝到機械臂、靈巧手上,再套用到家電、汽車零部件等行業。
隨著能力的增強,公司未來能夠支撐更多機器人的技能,這個市場會越來越大,工業、農業、商業……人類總是希望智慧體在生活中輔助我們。
為什麽用具身智慧的範式做傳統的事?因為它是剛需,是痛點。
公司預計,今年營收可達數千萬元人民幣,下一年有望過億。
對一個CEO來說,最重要的是具備洞察力,選擇合適的技術路徑,找到誌同道合的人,把產品做出來。
對一個企業來說,永遠的話題是:下一個利潤增長點在哪裏?要找到有決定價值的商業場景,在關鍵時間節點,找清自己的生態席位,每一步都要看準。