當前位置: 華文世界 > 科技

偉景智慧董霄劍:曉唯2代人形機器人年底量產

2024-05-06科技

偉景智慧的目標是在2025年前實作低成本,可量產的人形機器人產品,並利用其硬體本體的技術專利布局與軟體控制與演算法,在2025年前將人形機器人成本控制在15萬元人民幣以內。偉景智慧認為,人形機器人必備條件包括:自主操作、自學習、真正實用以及連線未來。

目前,一些人形機器人試圖開發語音互動指令,將大型語言模型(LLMs)和視覺-語言模型(VLMs)作為高級規劃器被融入機器人控制系統。然而,直接將它們用於低階控制仍存在許多問題。絕大多數 VLMs 是在靜態影像-語言配對上訓練的,而機器人任務需要閉環控制的視訊理解。如果有一家公司能夠提供前端視覺認知方案,實作輕量級端側計算,並具備即時VLMs處理能力,那麽這家公司很有可能改變人形機器人技術的發展方向。偉景智慧就是這樣一家專註於機器人視覺領域的公司。

▍人形機器人的核心在於利用先進的視覺系統提升其自主操作性

在過去的一年中,人形機器人視覺技術領域呈現了多方競爭的局面。特斯拉的Optimus采用了8網路攝影機的純視覺解決方案,結合Dojo芯片進行影像演算法處理,配合其電動汽車上的FSD技術,實作了對不同物體和環境資訊的理解和處理。小米的Cyber One則采用了相對成本較低的iToF模組和RGB模組進行視覺定位,盡管這種方式成本較低,但精度較低,無法完成精細化操作。波士頓動力Atlas電液混驅版本和宇樹科技的Unitree p則采用ToF深度相機與雷射雷達方案,但這種技術方案通常需要在恒定光源條件下進行。然而,面對室外強光和反光環境,這種方案在一定程度上限制了其綜合運動能力。

在這一領域,偉景智慧采用了一種全新的設計理念。公司CEO董霄劍認為,一個真正具備智慧自主作業系統的人形機器人必須具備高度的感知和認知能力。這不僅要求機器人能夠理解和處理三維空間資訊,還需要其擁有類似於人類的立體視覺系統。目前,偉景智慧的第二代人形機器人曉唯搭載了ViEye立體視覺系統。該系統的最大優勢在於低成本、可量產、高抗光、高精度,並且具備端側即時數據處理能力。

請點選偉景智慧「線雷射+雙目立體視覺

董霄劍表示,自2016年起,偉景智慧一直專註於3D立體視覺技術的開發,並率先開發了線雷射+雙目立體視覺技術方案,成功套用於工業分揀與碼垛等領域。就研發而言,偉景智慧的3D立體相機從硬體設計到軟體演算法均由公司自行研發完成,並擁有以下核心技術優勢:

優勢一:偉景的3D相機單個成像面像質數量可達600萬,是ToF技術方案的60萬的10倍,為人形機器人的精細化操作提供了廣闊的發展空間。未來,曉唯人形機器人將能夠透過高精度視覺系統完成如穿針引線的操作。


偉景智慧3D相機具備高抗光性(金屬不銹鋼零件)

優勢二:具備高抗光性,滿足人形機器人在各種場景下的作業需求。偉景ViEye立體視覺系統的抗光性達到18萬流明,遠超傳統結構光技術的8萬流明。這種高抗光性使得人形機器人可以套用於戶外強光場景。未來,結合強化學習和模仿學習技術。曉唯人形機器人將具備在復雜路面行走的能力。

優勢三:曉唯人形機器人搭載的ViEye立體視覺系統包含頭部和胸部兩個單元,頭部相機具有廣視角操作能力,胸部相機則具有長焦操作能力。偉景相機的大景深範圍從500-4000mm,遠超傳統結構光技術的最大安裝距離2000mm。這意味著曉唯人形機器人在精細化操作方面具備了先決條件。

優勢四:ViEye立體視覺系統的核心計算芯片由偉景智慧自行研發,無需外部單元介入進行計算。這使得系統能夠處理每秒高達5000幀的即時數據,實作零延遲。這一特點在人形機器人的商業套用中至關重要。目前,曉唯人形機器人已實作了在轉身過程中移動手臂進行水果采摘的動作,而並非轉身動作完成後擡起手臂進行采摘。這一點對手眼伺服能力提出了極高的要求,即便是Figure 01目前也無法完成在運動狀態下的手眼伺服聯動操作,而偉景是全球唯一一家能夠實作高度精細化手眼伺服協同操作的人形機器人企業。

▍偉景智慧NaturalLearning®為人形機器人植入視覺大腦

在首屆中國人形機器人產業大會上,董霄劍作為演講嘉賓分享了偉景智慧基於先前的套用案例打造的三種型別的認知庫,分別是場景認知庫、平面視覺認知庫和立體數據認知庫。這些認知庫不僅支持機器人對環境的認知,還為機器人的操作提供了必要的數據支持。透過共享這些認知庫,偉景智慧的平台能夠實作工業級和消費級產品的高效開發。

此外,董霄劍還公布了曉唯人形機器人自學習Natural Learning®技術路線,包括語音指令控制、動作規劃與學習、文字的學習與理解以及多模態互動幾大方向。

我們找到了美國Figure 01的技術路線,並與偉景智慧Natural Learning®進行了對比發現,Figure 01采用了搭載Open AI Model LLM來驅動神經網路決策產生,神經網路則驅動機器人本體執行。雖然Figure 01具備一定的場景認知的泛化能力,但由於大語言模型目前無法實作人形機器人的在地化部署,因此部份數據需要接入雲端,再由雲端反饋轉化為動作執行命令,這導致了一定響應時間延遲。這也是為什麽Figure 01每次對話都需要停頓2-3秒鐘的原因。

偉景智慧Natural Learning®采用了另一種技術路線,該技術路線弱化了雲端計算能力,更強調前端的即時計算能力。由於ViEye立體視覺系統沒有延遲,因此不需要強大的本地計算來進行動作預測,這在一定程度上減輕了在地化數據的計算負擔。你可以將NaturalLearning®看成集合了VLMs+LLMs的端側小模型,而曉唯人形機器人第二代的雙相機系統則是多端側小模型的協同作業,這套技術路線的優勢在於由於采用了前端計算,因此在命令的響應速度方面遠遠領先於Figure 01。

▍偉景智慧核心優勢在於解決手眼伺服協同作業能力

早在2019年,偉景智慧就設計出了第一代靈巧手原型產品,當時主要依靠電流進行運動控制。第二代靈巧手擁有了更加靈活的自由度設計,並且響應速度大幅提升。到今天,偉景智慧推出的第三代靈巧手已經將壓力傳感器整合其中。與人類手部的匹配度達到90%相似度。

偉景智慧人形機器人核心技術專利號

董霄劍曾公開表示,人形機器人的關鍵在於如何解決手眼伺服協同作業能力。與立體視覺技術同樣重要的是手部的靈巧操作。正因為如此,偉景智慧用了5年時間自研靈巧手的關鍵核心零部件,並取得了國家技術專利。

目前,偉景智慧的第三代靈巧手已能夠實作拿捏A4紙張,抓握筆寫字等功能。而目前主流的靈巧手僅能實作較大且具有辨識度的物體的抓取,如蘋果、香蕉、紙團或帶有顏色的馬克杯等產品。其技術瓶頸在於視覺精度不夠,僅依靠演算法是無法完成人形機器人的精細化操作。偉景智慧的ViEye立體視覺系統此前套用於工業場景,擁有亞公釐級別的精度設計,這從底層上保證人形機器人在精細化場景的操作優勢。

請點選輸入圖片曉唯二代人形機器人采摘

偉景智慧靈巧手背部擁有手眼伺服Mark點,確保在手部運動過程中,能夠時刻在眼睛的控制下調整手臂前進的路徑與位置。這也是為何偉景智慧需要大量精力自研靈巧手硬體的原因。如果僅采用偉景智慧立體視覺系統,而使用第三方靈巧手技術方案,是無法實作良好的手眼配合協調控制的。

▍結語與未來

與傳統機器人企業不同,偉景智慧人形機器人的核心邏輯在於解決其立體視覺系統的高精度、高抗光以及前端免巨量GPU計算能力,同時配合自研的靈巧手,實作了一整套流暢的手眼伺服操作。具備在運動狀態下的即時計算與分析能力,在全球範圍內僅偉景智慧一家企業擁有此項核心技術。

偉景智慧人形機器人的出發點在於制造真正可以商業落地的低成本、可量產的機器人。在其商業計劃中,首批人形機器人將於今年12月量產交付。與預期不同,首批產品並非定位於教育科研領域,而是專為采摘市場量身打造。

偉景智慧將在農業采摘領域進行運用性落地驗證,並在初步驗證透過後逐步向其他套用場景拓展。在人形機器人領域,這種清晰且完整的商業閉環鏈路似乎沒有幾家企業能夠真正做到。

幾年前,董霄劍曾表示要徹底覆寫3D立體相機市場格局。如今,偉景智慧依靠其特有的線雷射+雙目立體視覺技術路線,將智慧焊接與拆碼垛領域的硬體價格降至2萬元以下,並提供免費軟體使用。3D立體相機市場的格局正在被重新覆寫。

寫在最後,筆者腦海中閃現出一個人,田中耕一,這位2002年諾貝爾化學獎獲得者既非科班出身,也並非化學世家,而是一位普通的日本職員。因在一次實驗中的失誤意外發現了生物大分子的質譜分析法而大獲成功,被視為「底層小職員的神奇逆襲」。有時候,技術的叠代並非按照線性秩序發展,也並非一定由圈內行業大佬開辟。破局者,往往從另一視角提供足以改變底層邏輯的創新驅動力。這一切又是否會在人形機器人產業發生呢?在人形機器人產業激戰正酣的當下,讓我們拭目以待。