當前位置: 華文世界 > 科技

開源!通用!MixSup改進3D目標檢測方案

2024-02-13科技

來源:電腦視覺工坊

添加v:dddvision,備註:三維重建,拉你入群。文末附行業細分群


論文題目: MIXSUP: MIXED-GRAINED SUPERVISION FOR LABELEFFICIENT LIDAR-BASED 3D OBJECT DETECTION

作者:Yuxue Yang ,Lue Fan等

作者機構:Institute of Automation, Chinese Academy of Sciences

論文連結:https://arxiv.org/pdf/2401.16305.pdf

程式碼連結:https://github.com/BraveGroup/PointSAM-for-MixSup

MixSup提出了一種 混合粒度 監督的實用範例,透過同時利用大量的廉價聚類級標簽和有限數量的準確盒級標簽,在標簽效率LiDAR-based 3D目標檢測中取得了顯著的效能提升。該方法重新設計了主流檢測器中的標簽分配,使其可以輕松整合到MixSup中,實作了實用性和普適性。在nuScenes、Waymo Open Dataset和KITTI上的驗證表明,MixSup在使用少量昂貴標簽的情況下,能夠達到接近全監督效能的水平(最高97.31%)。此外,提出的PointSAM基於 Segment Anything Model,用於自動生成粗標簽,進一步減輕了標註的負擔。總體而言,MixSup為標簽效率LiDAR-based 3D目標檢測領域提供了一種創新的解決方案。

讀者理解:

  • 點雲特性的重要性:作者透過對點雲的紋理缺失、尺度不變性和幾何豐富性的觀察,深刻理解了 LiDAR數據的獨特性質。這為提出MixSup的動機奠定了基礎。

  • 混合粒度監督的創新性:MixSup的主要創新點在於采用混合粒度監督,即利用大量的簇標簽進行語意學習,同時使用少量準確的盒標簽進行幾何估計。這種設計能夠更有效地利用標簽,提高檢測器效能。

  • 標簽效率與人工標註的平衡:透過引入簇標簽的方式,MixSup顯著降低了對人工標註的需求,提高了標簽效率。特別是,簇標簽相較於中心標簽更為高效,而PointSAM進一步減輕了標註負擔,提供了自動生成粗標簽的方法。

  • 1 引言

    MixSup提出了一種創新的標簽效率學習範例,透過同時利用大量廉價的簇標簽和有限數量的準確盒標簽,實作了顯著的LiDAR-based 3D目標檢測效能提升。其基於點雲內容的觀察,得出了一個檢測器對於語意學習需要大量粗糙語意標簽,但對於幾何估計只需要少量準確幾何標簽的結論。采用語意點簇作為粗標簽,並透過重新設計檢測器中的標簽分配,MixSup具有實用性和通用性。利用Segment Anything Model和PointSAM,進一步降低了簇標簽的成本,使其成為LiDAR-based 3D目標檢測領域的一項重要貢獻。

    2 方法

    本文提出了一種新的LiDAR-based 3D目標檢測的標簽效率學習方法,稱為MixSup。方法首先觀察到點雲的特性,包括缺乏紋理、尺度不變性和幾何豐富性。基於這些觀察,MixSup采用大量廉價的粗標簽(簇級標簽)和少量準確的標簽(盒級標簽)進行混合粒度監督,以提高標簽效率。

    具體而言,方法首先提出了一種更優的粗標簽獲取方式,即使用簇級標簽代替先前的中心級標簽,透過在Bird’s Eye View中繞物件進行三個粗略點選形成簇級標簽。相比於先前的中心級標簽,簇級標簽更為高效,且具有更多資訊。透過實驗證明,簇級標簽的平均標註成本僅為準確盒標簽的約14%。

    在混合粒度監督方面,本文重新設計了檢測器中的標簽分配模組,以確保適用於簇級標簽。包括基於中心的分配和基於盒的分配,其中基於中心的分配使用簇中心替代物件中心,並透過引入盒標簽的內部簇中心來解決不一致性。

    對於基於盒的分配,方法引入了盒-簇IoU(Interp over Union),透過計算點雲中簇級標簽和提議框之間的IoU,將簇級標簽分配給提議框,適用於錨點和兩階段檢測器。

    為了進一步減輕粗標簽的標註負擔,本文提出了PointSAM,透過利用SAM(Segment Anything Model)生成自動粗糙標簽。PointSAM包括SAM-based 3D例項分割和可分離感知細化兩個模組,透過利用SAM生成2D語意掩碼,並將其對映到3D點雲,以及透過可分離感知細化提高分割質素。

    最後,方法定義了訓練損失,將粗標簽和準確標簽分別用於分類和回歸,形成MixSup的綜合損失函數。與其他標簽效率學習方法(如半監督、弱監督、自監督)不同,MixSup的設計哲學更為實用,透過整合不同類別的監督資訊,以適用於流行的檢測器,實作更好的效能。透過與半監督學習中的self-training技術的結合,MixSup還展示了與其他標簽效率方法的無縫協作的潛力。

    總體而言,MixSup透過混合粒度監督、高效獲取簇級標簽和自動粗標簽生成,成功提高了LiDAR-based 3D目標檢測的標簽效率,取得了顯著的效能提升。

    3 總結

    本文透過對點雲獨特內容的深入研究,驗證了在LiDAR-based目標檢測中,語意學習需要大量粗標簽,而幾何估計只需要少量準確標簽的結論。提出了MixSup框架,透過同時利用大量簇標簽和少量盒標簽,實作了標簽效率的提升。引入PointSAM減輕了標註負擔,方法在三個主流基準測試中取得了顯著的效能提升。未來工作將重點探討MixSup與半監督方法的合作潛力,並借助自動標註方法進一步最佳化效能。