分析 丨AI演算法愈加復雜，但是機器視覺的開發門檻在降低

2024-02-19科技

機器視覺系統依賴於機器學習（machine learn）和深度學習(deep learn)，尤其是深度學習的重要分支「摺積神經網絡」在影像辨識領域的套用，使機器視覺能夠從原始像質數據中直接學習特征並準確判斷。此外，AI大模型近兩年受到關註，也可能被引入機器視覺領域，在跨模態理解和推理等方面展現出更強能力。

AI演算法的復雜程度越來越高，機器視覺系統設計面臨挑戰，然而，從各種開發資源來看，機器視覺系統開發不會更難，或許會更加容易。

標準模組、系統級模組（SOM）易用性提升

首先是各種標準化的機器視覺模組（如智能相機、視覺傳感器、3D相機）整合了必要的成像元件、影像處理器和通訊介面，使用者可以直接透過軟件配置或二次開發實作所需功能，減少底層硬件設計和整合的工作量。

其次，系統模組（System on Module,SOM）易用性提升，可用於加速機器視覺專案開發。SOM相當於一個高度整合的小型電腦主機板的核心部份，包括CPU、GPU、RAM和一些基本電路，可以直接將SOM插入載板，進行功能擴充套件、連線外部器材，快速構建功能完備的嵌入式系統或產品原型。

下面介紹幾款可用於機器視覺系統開發的SOM：

1. NVIDIA Jetson

NVIDIA Jetson利用AI為機器人開發、智能影片分析、機器視覺和自主機器的未來提供動力支持。NVIDIA Jetson系列模組是緊湊而高效能的電腦，輔以NVIDIA JetPack™ SDK，可加速軟件開發。在邊緣生成式AI、NVIDIA Metropolis和Isaac平台的支持下，Jetson提供可延伸的軟件、現代AI堆疊、靈活的微服務和API、生產就緒型ROS軟件包以及觸手可及的特定於應用程式的AI工作流。Jetson還與其他NVIDIA平台無縫整合，共享AI軟件和雲原生工作流。此外，它還擁有構建軟件定義自主機器和突破性邊緣AI解決方案所需的節能效能。每個NVIDIA Jetson都是一個完整的SOM，包括GPU、CPU、記憶體、電源管理和高速介面等。

圖註：NVIDIA Jetson系列（圖源：NVIDIA）

2. Xilinx Kria K26 SOM

Kria K26 SOM為滿足當前和未來市場對視覺AI和影片分析的需求而設計，搭載基於Zynq® UltraScale+™ MPSoC架構的自適應SoC以及支持該SoC所需的所有基本元件，比如記憶體和電源等。Kria K26 SOM搭配一款簡單的專為終端使用者設計的載卡，該卡整合了使用者終端系統具體使用的連線元件和附加元件，量產部署的客製也簡便易行。

圖註：Kria K26 SOM與NVIDIA Jetson Nano和NVIDIA Jetson TX2特性對比（圖源：AMD）

3. 瑞薩電子SOM解決方案

從視覺的采集、處理、分析和理解中生成數碼後設資料需要具有AI的高效能MPU。瑞薩電子的SOM解決方案使開發人員能夠管理這些關鍵決策流程。系統優勢：高效能雙核Arm® Cortex®-A53 MPU；專用高速硬件AI推理（DRP-AI）；符合SMARC 2.1標準的設計。

圖註：瑞薩電子機器視覺SOM結構（圖源：瑞薩電子）

4. 基於瑞芯微RK3588的SOM

RK3588 S15是一款專門面向AI機器視覺套用的SOM，支持安卓、Linux和鴻蒙OS，體積小巧，方便用於便攜式器材開發，如UAV、智能頭盔、工業機器人、市政機器人等產品開發。RK3588采用8nm制程的8核心CPU，整合G61GPU、大算力NPU和8K VPU，可為機器視覺套用提供強力支撐。S15核心板已將RK3588的全部功能介面引出，豐富的介面設計也有助於快速落地相關產品。

除了瑞芯微之外，基於晶晨、全誌科技、地平線、寒武紀、海思處理器芯片的SOM也有不少，這些產品通常是下遊合作方推出的針對機器視覺套用的客製化產品，這裏不做贅述。

圖註：面向AI機器視覺套用的核心板SOM RK3588 S15（圖源：ScenSmart）

單板電腦、開源軟件庫普及

單板電腦（Single Board Computer,SBC）與開源軟件庫結合，也可以加速機器視覺系統的開發行程。

單板電腦提供高性價比硬件解決方案，整合了處理器、記憶體、輸入輸出介面以及必要的多媒體處理能力，能直接執行復雜影像處理和深度學習演算法。快速使用SBC搭建原型系統進行實驗和驗證，降低機器視覺專案的啟動門檻。SBC另一個優勢是，龐大的使用者社區和技術支持，共享硬件驅動程式、作業系統映像、應用程式例項及教程，為機器視覺套用的開發提供了便利。

常見的SBC品牌比如飛騰派、樹莓派、Arduino、BeagleBone、賽昉科技的昉·星光系列RISC-V架構單板電腦、Firefly（螢火蟲）等。

圖註：飛騰派與樹莓派的特性（圖源：中電港公眾號）

此外，諸如OpenCV、TensorFlow、PyTorch等開源機器視覺和深度學習框架的出現，使得開發者無需從零開始構建復雜的影像處理演算法，這些工具包提供了豐富的預訓練模型、API函數以及易於使用的編程介面，極大簡化視覺套用的開發流程。

將單板電腦與開源軟件庫結合，開發者可以在一個相對較低的成本下，迅速構建和叠代機器視覺解決方案，實作從原型驗證到產品化部署的快速轉換。以飛騰派和OpenCV開發機器視覺為例，飛騰派本身采用飛騰自主研發的高能效異構多核處理器技術，具有模組化、易上手、全開源、低成本的特點，可透過OpenCV在飛騰派板子的移植編譯與交叉編譯，快速啟動機器視覺的開發。關於飛騰派機器視覺的開發程式碼、開發流程等，可以在芯查查社區查詢。

圖註：飛騰派套用案例——智能機械臂透過AI+機械臂將垃圾分類放置在對應的垃圾桶（圖源：飛騰官網）

雲服務提升開發效率

雲端運算服務提供商也推出了包含機器視覺功能的服務，允許使用者透過API呼叫進行影像辨識和分析，無需在本地部署復雜的基礎設施。雲服務的基本作用是數據儲存與管理、計算資源擴充套件、模型訓練平台、服務化部署等。主要的雲服務包括：阿裏雲視覺智能開放平台，提供影像辨識、物體檢測、內容稽核等多種機器視覺API服務。騰訊雲端運算機視覺服務提供多種視覺分析服務，包括影像辨識、人臉辨識、文字辨識、內容稽核等。百度大腦視覺技術提供了基於百度大腦的電腦視覺技術，如通用物體及場景辨識、影像搜尋、人體分析等服務。華為雲視覺智能服務推出多個視覺相關的雲服務，例如影像辨識、影片分析、OCR等，適用於工業質檢、安防監控等多個領域。

小結

隨著系統模組SOM、單板電腦SBC的發展，以及各類開源軟件庫的廣泛套用，機器視覺系統的開發難度得到了顯著降低，更多的開發者和企業能夠在有限的技術資源下快速進入這一領域，推動了機器視覺技術在各行各業的普及和創新套用。

分析 丨AI演算法愈加復雜，但是機器視覺的開發門檻在降低

分析丨AI演算法愈加復雜，但是機器視覺的開發門檻在降低