當前位置: 華文世界 > 科技

直播對話:視覺感知如何驅動機器人「睜眼」看世界

2024-10-06科技

本期TICLAB直播,我們特別邀請到阿丘科技聯合創始人鄭慧偉,光秒科技創始人余彥武博士,易觀合夥人/企業數位化中心負責人張澄宇,和我們一起聊聊他們如何利用前沿技術應對行業痛點,以及未來智慧制造的新機遇。

阿丘科技和光秒科技,兩個在工業AI領域深耕不輟的企業,正在以各自的創新技術改變著傳統制造業的面貌,推動著傳統制造業的轉型。

成立於2017年的阿丘科技,一直紮根於工業生產一線,專註於機器視覺和AI視覺技術的套用,致力於實作全方位的品質管控。他們的AIDI平台不僅能高效檢測缺陷,還能即時監控裝置和人員操作的安全性,真正為企業帶來了實打實的價值。想象一下,以前需要數十名質檢員的繁重任務,如今透過AI技術的套用,僅需幾台裝置便可輕松完成,這無疑是對傳統制造業的一次顛覆。

光秒科技自2019年成立,目標明確:為機器賦予「通用的眼睛」。他們透過將雷射雷達與網路攝影機技術融合,創造出一種全新的傳感器。這種傳感器不僅具備3D感知能力,還能夠以極低的成本提供高分辨率的環境理解。這樣的技術將如何改變無人機物流配送、自動駕駛等領域,讓機器真正「看」得更遠、更清晰。

AI浪潮下的新需求

張澄宇:作為機器視覺產業鏈上的廠商,阿丘科技和光秒科技分別觀察到市場端有哪些新的熱點和需求?

鄭慧偉: 大家好,我是來自阿丘科技的鄭慧偉,我們主要在做工業生產領域的機器視覺相關的技術,來實作整個生產過程中的品質管控。我們比較關心兩個維度,一個是供給,一個是需求,最好的情況下是達到PMF(product-market fit,就是很舒服的狀態。在整個工業生產的過程中,視覺它本身是一種感知的手段和方法,其實需求非常多。第一大類是圍繞整個生產過程中視覺的套用。第二大類是能面向和人相關的,人的一些動作辨識。第三類是在整個工業生產過程中安全相關的問題。更深入一步來講,視覺我們把它定義成感知層,這個其實還只停留在感知層,還沒到反饋層。如果在工業生產過程中能把這種感知的資訊,進行有效的二次加工,形成對應的一些工藝反饋,能反饋到前端工藝上,來判斷工藝是否需要改善,整體良率和稼動率是否可以提升等等,這些點都能帶來非常大的價值。所以說從宏觀角度來看,基本上需求是很多的,我們也非常擁抱新型的技術來到我們行業中,為這個行業賦能。

余彥武: 大家好,我叫余彥武,是光秒科技的創始人。我們是做傳感器的,主要解決將來人工智慧所有的機器通用的「眼睛」問題,具體來說我們是把雷射雷達和網路攝影機融合到一個裝置裏,你可以想象它既是雷射雷達也是網路攝影機,將來可以做為一個對網路攝影機方案的升級版本,套用到機器人的各種套用中。

我們在解決的是從2D到3D升級的問題。雷射雷達這個領域之所以誕生,除了像一些空間的、航天的用途之外,民用用途最早是起源於自動駕駛。在自動駕駛之前,大家對3D傳感是有一些需求的,但其實沒有那麽迫切,直到像自動駕駛這樣的套用需求出來之後,大家發現需求變得必須要解決了,因為車在路上跑著辨識前面的各種障礙物,它是一個很開放的環境,那對傳感的要求就提出更多挑戰。隨著現在人工智慧越來越熱門,機器人、機器狗出現並承擔更多的角色,3D需求就會變得非常的迫切。第二類,像一些3D數位重建,類似於測繪采集的需求現在也很多,比如前一段時間比較火的【黑悟空】,有些遊戲場景是需要透過3D傳感裝置實地的采集一些實物模型,輸入到遊戲場景裏,1:1復現。像AR、VR的一些遊戲,現在有了VR眼鏡,但是缺少內容,這個內容如果沒有好的傳感器去即時收集的話,只能靠人工去編輯,這樣生產數據的效率就會很低。以前雖然有網路攝影機傳感器,但是它還不夠,因為它錄制的只是一個稍微固定視角的、帶顏色的資訊,它是沒有深度的。所以傳感器從2D向3D升級是順應市場需求的必然趨勢。我們是做硬體的,和阿丘科技其實是有上下遊的關系,我們希望去往底層提供更好的生產工具,這樣後面的套用就可以更好的開展。

無人區開出的技術玫瑰

張澄宇:當下供給側的生態是不是成熟了,如果還有一些欠缺的話,可能是在哪些層面或者產業鏈環節上還存在瓶頸?

余彥武: 我的感受是傳感器相對來說比較新一點,這個賽道相當於是個無人區,我們更多的難點來源於我們的上遊。現在主流雷射雷達也才做到15萬到20萬像素這麽個級別,當我們要做到百萬像素甚至千萬像素級別的時候,你會發現很多問題並不是原理上不可行,而是很多基礎元器件都要重新構造,比如芯片。如果用現有的元器件去拼湊,成本就很高。我們需要的東西現在市場裏是空白的,必須要自己做很多本來不應該我們來做的事情。我認為這個事情是沒有問題的,我們也應該做,因為我們給自己定的目標比較超前,當你做一個無人區的時候,那就意味著你的上遊都是無人區。所以我們做了大量的自研雷射器、自研芯片,不僅要把功能做通,還要把它的成本降低,把它的可靠性做好。我希望將來形成一個大的趨勢之後,會有更多人參與進來去分攤我們的一些努力和成本。

另外在我們的下遊這個方面,我們也有跟上遊差不多的痛感。因為我們的雷射雷達太新。一個典型的認知就是像自動駕駛汽車,很多人還在爭議,到底要不要用雷射雷達,比如以馬斯克為代表的特斯拉,他用視覺就做的非常好,這會導致大家對雷射雷達的存在是不是有必要這個問題產生質疑。從底層技術來講,雷射雷達能夠提供的效能天花板是遠高於網路攝影機的,因為它能提供多一個維度的資訊,它是3D的。大家在談論必不必要的時候,更多隱含的是,它價格能不能降下來。換句話說,如果同樣的價格同樣的分辨率,大家一定會選雷射雷達。但我認為這件事很有意義,我需要去為一件正確的事努力,我相信就算不是光秒,再過10年、20年也會有其他公司實作這個目標。

鄭慧偉: 我們本身是一家以軟體為核心的一個企業,我們是做AI演算法平台的。我認為供給瓶頸是在特定場景或者復雜場景上,存在一些技術上的瓶頸,我們也在積極尋找這些新型的技術,比如說像一些新型的光學手段,新型的成像技術。舉個例子,像X-ray最早是用在牙科或拍胸片的民用場景,在幾年前,X-ray技術也引入到工業領域來做無失真檢測,還包括像超音波檢測技術等,也引入到了整個行業內。

同時我們也在吸納一些最前沿的技術,來做智慧相機產品。智慧相機產品,它是軟硬一體的智慧視覺產品,對於剛才余博士說的在做的無人區的產品,我們是最感興趣的,我們關心兩大類創新,一大類屬於原創性的底層技術創新,另一類是交叉創新,比方它在A場景下用的很好,但他從來沒有看過B場景,他不知道B場景也能用。舉個例子,比如說像多光譜的技術,現在也在我們行業中在用。雷射雷達我們也在看,它做的是面向大視野的場景(如無人駕駛),我們關註的場景基本上是偏結構化的小視野場景,對於這些小視野高精度的需求,我們強調的是計算的可重復性,所以對於不同場景有不同的考量點。

張澄宇:演算法的叠代和創新,是核心要素嗎?

鄭慧偉: 阿丘科技從創立到現在為止,一直以來都是以演算法為核心來構建競爭壁壘或有利競爭的,上個月我們也剛釋出了演算法和平台軟體的新版本AIDI 3。用一個通俗的結構來看,這個場景裏大家常說的三要素,算力、演算法和數據,我們觀察到了一個非常大的趨勢,就是從演算法往數據這邊去構建技術壁壘的這樣一個趨勢。我們從最早的以構建演算法為核心壁壘,在不斷的叠代過程中,結合場景數據來構建場景模型的壁壘。在一些行業中,我們已經形成了一些通用的模型。它可以去跨場景復用,跨生產線復用,這對我們來說是很有價值的,本質上它形成的是一大類資產,對於我們的成本結構,對於客戶端的成本節省都有非常大的幫助。

余彥武: 因為我們提供的是原始數據,我想就如何使用這部份數據分享一些觀點。我們這種新的傳感器數據的出現,可能會對演算法帶來一些新的挑戰。現在很多演算法都是針對影像這種格式,不管什麽樣的傳感器,不管誰家的傳感器,數據格式基本都是通用的,數據流可能就是這樣一個二進制的排列。再比如說有了我們這種新的傳感器之後,每一個像素包含的數據格式就不只是RGB,可能是RGB加距離。影像是存成JPG格式,視訊存成MP4格式,那像我們這種數據它應該存成什麽格式,用什麽方法來編碼來壓縮,對於訓練演算法可能都要做一些調整。這個可能是這種新的硬體為軟體演算法帶來的一些新的課題。

張澄宇:人機協同跟機器驅動,目前是什麽樣的關系?

鄭慧偉: 人機協同我們是辯證來看待它的,它分成兩個維度,一個屬於替代級,就是全自動化,像無人駕駛也是一樣,人的幹涉越少越好。第二類屬於協作級,比如我能問他什麽問題,基於這些問題他給了幾個答案,再給他一些其他的資訊輸入。回到工業生產這個點上,我們想方設法的減少人機協作,我們是透過AI或是以數據驅動的方式,把人的動作或者人的理念想法數據化。

余彥武: 從底層來講,人是碳基生命機體,機器人的軀體在硬體層面比人適應力更強。首先它的各種材料效能都比人的肌肉要強,溫度適應範圍更廣,也不需要氧氣。第二,它的能源利用效率也比人強。在演算法推理方面,只要數據足夠、算力足夠,機器的思考能力也能達到甚至超越人類的水平。綜上在硬體和軟體思考能力上,機器都可能會全面超越人類,並不需要人機協同。這是我對未來的一點暢想。

張澄宇:在數據和算力層面,存在的突破和挑戰有哪些?

鄭慧偉: 數據毫無疑問是資產,從大的時間視野來看,是一個持續利好的事情。算力層面,圍繞著兩個方向在發展,高效能和低成本。一方面從成本來說,能感受到隨著整個工業大生產的鋪開,合理的平均成本其實在逐步在下降的。另一方面從需求層面來說,我們希望是魚和熊掌兩者兼得,當然還得依靠產業鏈上的各位同仁,我們能做的就是在數據層面去構建我們的一些壁壘和積累。

余彥武: 因為我們是做硬體的,所以當我們發現某個事情有難度或者有瓶頸的時候,我們首先思考的是能不能從硬體上把這個瓶頸給消掉。現在人工智慧對算力要求越來越高,而且需要大量的數據積累。我們的思考是能不能從底層上去考慮一些新的計算邏輯,比如光子電腦,或者是純模擬訊號計算。

用技術撕開認知牢籠

張澄宇:視覺解決方案在落地時的痛點和挑戰?

鄭慧偉: 2017年前,工業視覺領域是以傳統的機器視覺演算法為主的,工業市場領域幾乎沒有任何AI的技術套用,大家認為AI是一個黑盒子,行業中99%的客戶和廠商其實是拒絕AI的,我們開玩笑說那時經歷了很多年「非共識」的過程。隨著技術的快速發展,在一些場景的PK上,大家逐步感受到用AI檢測技術的效果和用傳統演算法檢測的效果在快速拉開代差。

後面我們就把眼睛紮根到客戶真正的需求裏來創造差異化價值。比如人臉辨識需要很多人臉圖片,但在工業市場中它的良率很高, 有可能3、5個月才能收集十來個不良品,所以就倒逼著我們去研發小樣本的演算法,把這一類關鍵缺陷給檢測出來。還有客戶說我實在收集不到NG樣品,但是你必須要檢測出來,這又倒逼著我們回到技術本身去尋找解決方案,後面我們就把無監督學習套用進來,去解決沒有NG影像的一些場景。我們就這樣手眼並進來尋找一個個創新的點(需求/技術,互聯互通),讓客戶去快速的獲得收益,解決技術上的一些疑難和挑戰。

余彥武: 我們創業一開始是抱著以終為始的初心,看看十年後這個社會需要什麽樣的傳感器,但是當我們真的去落地的時候,發現大家好像並不需要,或者說用不上。比方說汽車,大家對於汽車已經形成了一個固有觀點,就是以網路攝影機為主,因為現在各種訓練都是基於影像辨識的,也比較成熟了。雷射雷達是做一個備份保障,萬一網路攝影機有什麽問題,雷射雷達還能做個輔助防止碰撞,基本大家都這麽用的。在這種情況下,客戶完全不需要雷射雷達有很高的分辨率,他就要便宜,因為它是配角,配角就不能太貴。我們希望雷射雷達在實作高分辨率之後,要在市場上起到一個認知——它是主角。你可以不要網路攝影機,但不能沒有雷射雷達。

另一方面也找到了很多對我們有剛需的場景,比方說無人機,對於細節要求很高,它怕撞樹或者撞到高壓線,還有防止GPS遺失,這些時候它都需要用雷射雷達這種3D手段去實作。我們在做全新產品的實際推廣過程中,也會遇到類似的戰略選擇問題。先做對我們有剛需的場景,不需要的我們就先放一放,因為有些時候需要一定的時機。當我們有一天產品成熟,價格確實降到他的心理門檻時,沒準這個東西就會慢慢的推廣開來,大家需要有個接受的過程。

張澄宇:未來1-3年,機器視覺可能會出現哪些技術創新或者演進方向?

鄭慧偉: 從感知層面的維度,我認為單純的把影像采集回來的階段已經過去,下一階段一定會邁向計算成像,結合著2D/3D傳感器的訊號來綜合生成多維度的數據資訊。另外從演算法的維度,包括從語言大模型到影像大模型一直在演變,像Meta推出的SAM(分割一切模型)的開源成果,都在讓大家對於這些演算法創新充滿了期待。

余彥武: 和套用中遇到一些困境有關,就是常常會面臨大家在認知上的一些判斷。所以我們現在從做數據標註、數據集的建設開始,用新的數據格式采集回來數據,做完標註訓練看出來的是一個什麽樣的效果。 我們在上遊供應鏈硬體和下遊很多的市場方向上都做了一些嘗試,其實本來是客戶要做的事情,我們來做,我認為是非常值得的,這些都是你作為一個創新者,必須要去解決的問題。能讓大家認識到新的傳感器,也可以透過訓練新的數據去更好的解決問題。