开源！通用！MixSup改进3D目标检测方案

2024-02-13科技

来源：计算机视觉工坊

添加v：dddvision，备注：三维重建，拉你入群。文末附行业细分群

论文题目： MIXSUP: MIXED-GRAINED SUPERVISION FOR LABELEFFICIENT LIDAR-BASED 3D OBJECT DETECTION

作者：Yuxue Yang ,Lue Fan等

作者机构：Institute of Automation, Chinese Academy of Sciences

论文链接：https://arxiv.org/pdf/2401.16305.pdf

代码链接：https://github.com/BraveGroup/PointSAM-for-MixSup

MixSup提出了一种混合粒度监督的实用范例，通过同时利用大量的廉价聚类级标签和有限数量的准确盒级标签，在标签效率LiDAR-based 3D目标检测中取得了显著的性能提升。该方法重新设计了主流检测器中的标签分配，使其可以轻松集成到MixSup中，实现了实用性和普适性。在nuScenes、Waymo Open Dataset和KITTI上的验证表明，MixSup在使用少量昂贵标签的情况下，能够达到接近全监督性能的水平（最高97.31%）。此外，提出的PointSAM基于 Segment Anything Model，用于自动生成粗标签，进一步减轻了标注的负担。总体而言，MixSup为标签效率LiDAR-based 3D目标检测领域提供了一种创新的解决方案。

读者理解：

点云特性的重要性：作者通过对点云的纹理缺失、尺度不变性和几何丰富性的观察，深刻理解了 LiDAR数据的独特性质。这为提出MixSup的动机奠定了基础。

混合粒度监督的创新性：MixSup的主要创新点在于采用混合粒度监督，即利用大量的簇标签进行语义学习，同时使用少量准确的盒标签进行几何估计。这种设计能够更有效地利用标签，提高检测器性能。

标签效率与人工标注的平衡：通过引入簇标签的方式，MixSup显著降低了对人工标注的需求，提高了标签效率。特别是，簇标签相较于中心标签更为高效，而PointSAM进一步减轻了标注负担，提供了自动生成粗标签的方法。

1 引言

MixSup提出了一种创新的标签效率学习范例，通过同时利用大量廉价的簇标签和有限数量的准确盒标签，实现了显著的LiDAR-based 3D目标检测性能提升。其基于点云属性的观察，得出了一个检测器对于语义学习需要大量粗糙语义标签，但对于几何估计只需要少量准确几何标签的结论。采用语义点簇作为粗标签，并通过重新设计检测器中的标签分配，MixSup具有实用性和通用性。利用Segment Anything Model和PointSAM，进一步降低了簇标签的成本，使其成为LiDAR-based 3D目标检测领域的一项重要贡献。

2 方法

本文提出了一种新的LiDAR-based 3D目标检测的标签效率学习方法，称为MixSup。方法首先观察到点云的特性，包括缺乏纹理、尺度不变性和几何丰富性。基于这些观察，MixSup采用大量廉价的粗标签（簇级标签）和少量准确的标签（盒级标签）进行混合粒度监督，以提高标签效率。

具体而言，方法首先提出了一种更优的粗标签获取方式，即使用簇级标签代替先前的中心级标签，通过在Bird’s Eye View中绕对象进行三个粗略点击形成簇级标签。相比于先前的中心级标签，簇级标签更为高效，且具有更多信息。通过实验证明，簇级标签的平均标注成本仅为准确盒标签的约14%。

在混合粒度监督方面，本文重新设计了检测器中的标签分配模块，以确保适用于簇级标签。包括基于中心的分配和基于盒的分配，其中基于中心的分配使用簇中心替代对象中心，并通过引入盒标签的内部簇中心来解决不一致性。

对于基于盒的分配，方法引入了盒-簇IoU（Interp over Union），通过计算点云中簇级标签和提议框之间的IoU，将簇级标签分配给提议框，适用于锚点和两阶段检测器。

为了进一步减轻粗标签的标注负担，本文提出了PointSAM，通过利用SAM（Segment Anything Model）生成自动粗糙标签。PointSAM包括SAM-based 3D实例分割和可分离感知细化两个模块，通过利用SAM生成2D语义掩码，并将其映射到3D点云，以及通过可分离感知细化提高分割质量。

最后，方法定义了训练损失，将粗标签和准确标签分别用于分类和回归，形成MixSup的综合损失函数。与其他标签效率学习方法（如半监督、弱监督、自监督）不同，MixSup的设计哲学更为实用，通过整合不同类型的监督信息，以适用于流行的检测器，实现更好的性能。通过与半监督学习中的self-training技术的结合，MixSup还展示了与其他标签效率方法的无缝协作的潜力。

总体而言，MixSup通过混合粒度监督、高效获取簇级标签和自动粗标签生成，成功提高了LiDAR-based 3D目标检测的标签效率，取得了显著的性能提升。

3 总结

本文通过对点云独特属性的深入研究，验证了在LiDAR-based目标检测中，语义学习需要大量粗标签，而几何估计只需要少量准确标签的结论。提出了MixSup框架，通过同时利用大量簇标签和少量盒标签，实现了标签效率的提升。引入PointSAM减轻了标注负担，方法在三个主流基准测试中取得了显著的性能提升。未来工作将重点探讨MixSup与半监督方法的合作潜力，并借助自动标注方法进一步优化性能。