開源！通用！MixSup改進3D目標檢測方案

2024-02-13科技

來源：電腦視覺工坊

添加v：dddvision，備註：三維重建，拉你入群。文末附行業細分群

論文題目： MIXSUP: MIXED-GRAINED SUPERVISION FOR LABELEFFICIENT LIDAR-BASED 3D OBJECT DETECTION

作者：Yuxue Yang ,Lue Fan等

作者機構：Institute of Automation, Chinese Academy of Sciences

論文連結：https://arxiv.org/pdf/2401.16305.pdf

程式碼連結：https://github.com/BraveGroup/PointSAM-for-MixSup

MixSup提出了一種混合粒度監督的實用範例，透過同時利用大量的廉價聚類級標簽和有限數量的準確盒級標簽，在標簽效率LiDAR-based 3D目標檢測中取得了顯著的效能提升。該方法重新設計了主流檢測器中的標簽分配，使其可以輕松整合到MixSup中，實作了實用性和普適性。在nuScenes、Waymo Open Dataset和KITTI上的驗證表明，MixSup在使用少量昂貴標簽的情況下，能夠達到接近全監督效能的水平（最高97.31%）。此外，提出的PointSAM基於 Segment Anything Model，用於自動生成粗標簽，進一步減輕了標註的負擔。總體而言，MixSup為標簽效率LiDAR-based 3D目標檢測領域提供了一種創新的解決方案。

讀者理解：

點雲特性的重要性：作者透過對點雲的紋理缺失、尺度不變性和幾何豐富性的觀察，深刻理解了 LiDAR數據的獨特性質。這為提出MixSup的動機奠定了基礎。

混合粒度監督的創新性：MixSup的主要創新點在於采用混合粒度監督，即利用大量的簇標簽進行語意學習，同時使用少量準確的盒標簽進行幾何估計。這種設計能夠更有效地利用標簽，提高檢測器效能。

標簽效率與人工標註的平衡：透過引入簇標簽的方式，MixSup顯著降低了對人工標註的需求，提高了標簽效率。特別是，簇標簽相較於中心標簽更為高效，而PointSAM進一步減輕了標註負擔，提供了自動生成粗標簽的方法。

1 引言

MixSup提出了一種創新的標簽效率學習範例，透過同時利用大量廉價的簇標簽和有限數量的準確盒標簽，實作了顯著的LiDAR-based 3D目標檢測效能提升。其基於點雲內容的觀察，得出了一個檢測器對於語意學習需要大量粗糙語意標簽，但對於幾何估計只需要少量準確幾何標簽的結論。采用語意點簇作為粗標簽，並透過重新設計檢測器中的標簽分配，MixSup具有實用性和通用性。利用Segment Anything Model和PointSAM，進一步降低了簇標簽的成本，使其成為LiDAR-based 3D目標檢測領域的一項重要貢獻。

2 方法

本文提出了一種新的LiDAR-based 3D目標檢測的標簽效率學習方法，稱為MixSup。方法首先觀察到點雲的特性，包括缺乏紋理、尺度不變性和幾何豐富性。基於這些觀察，MixSup采用大量廉價的粗標簽（簇級標簽）和少量準確的標簽（盒級標簽）進行混合粒度監督，以提高標簽效率。

具體而言，方法首先提出了一種更優的粗標簽獲取方式，即使用簇級標簽代替先前的中心級標簽，透過在Bird’s Eye View中繞物件進行三個粗略點選形成簇級標簽。相比於先前的中心級標簽，簇級標簽更為高效，且具有更多資訊。透過實驗證明，簇級標簽的平均標註成本僅為準確盒標簽的約14%。

在混合粒度監督方面，本文重新設計了檢測器中的標簽分配模組，以確保適用於簇級標簽。包括基於中心的分配和基於盒的分配，其中基於中心的分配使用簇中心替代物件中心，並透過引入盒標簽的內部簇中心來解決不一致性。

對於基於盒的分配，方法引入了盒-簇IoU（Interp over Union），透過計算點雲中簇級標簽和提議框之間的IoU，將簇級標簽分配給提議框，適用於錨點和兩階段檢測器。

為了進一步減輕粗標簽的標註負擔，本文提出了PointSAM，透過利用SAM（Segment Anything Model）生成自動粗糙標簽。PointSAM包括SAM-based 3D例項分割和可分離感知細化兩個模組，透過利用SAM生成2D語意掩碼，並將其對映到3D點雲，以及透過可分離感知細化提高分割質素。

最後，方法定義了訓練損失，將粗標簽和準確標簽分別用於分類和回歸，形成MixSup的綜合損失函數。與其他標簽效率學習方法（如半監督、弱監督、自監督）不同，MixSup的設計哲學更為實用，透過整合不同類別的監督資訊，以適用於流行的檢測器，實作更好的效能。透過與半監督學習中的self-training技術的結合，MixSup還展示了與其他標簽效率方法的無縫協作的潛力。

總體而言，MixSup透過混合粒度監督、高效獲取簇級標簽和自動粗標簽生成，成功提高了LiDAR-based 3D目標檢測的標簽效率，取得了顯著的效能提升。

3 總結

本文透過對點雲獨特內容的深入研究，驗證了在LiDAR-based目標檢測中，語意學習需要大量粗標簽，而幾何估計只需要少量準確標簽的結論。提出了MixSup框架，透過同時利用大量簇標簽和少量盒標簽，實作了標簽效率的提升。引入PointSAM減輕了標註負擔，方法在三個主流基準測試中取得了顯著的效能提升。未來工作將重點探討MixSup與半監督方法的合作潛力，並借助自動標註方法進一步最佳化效能。