来源:3D视觉工坊
论文题目: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos
作者:Hongchi Xia, Yang Fu等
作者机构: Shanghai Jiao Tong University等
论文链接:https://arxiv.org/pdf/2401.12592.pdf
项目链接:https://wildrgbd.github.io/
本研究引入了一项名为WildRGB-D的新型RGB-D对象数据集,该数据集在野外捕获,通过直接获取深度通道,实现更精准的3D标注和更广泛的应用。WildRGB-D包含大规模的类别级RGB-D对象视频,使用iPhone全方位拍摄对象360度,覆盖了约8500个记录的对象和近20000个RGB-D视频,涉及46个常见对象类别。这些视频采用多样化的杂乱背景,分为三种设置:(i)单个对象在一个视频中;(ii)多个对象在一个视频中;以及(iii)对象与静态手在一个视频中。数据集经过注释,包括对象掩模、真实尺度的摄像机姿态以及从RGBD视频中重建的聚合点云。研究使用WildRGB-D进行四项任务的基准测试,包括新视角合成、摄像机姿态估计、对象6D姿态估计和对象表面重建。实验证明,大规模捕捉RGB-D对象为推动3D对象学习提供了巨大潜力。
+v:dddvision,备注:SLAM,拉你入群,文末附行业细分群。
读者理解:
在这项研究中,研究团队提出并介绍了一个新的大规模RGB-D对象视频数据集,命名为WildRGB-D。相较于现有的真实世界对象为中心的数据集,WildRGB-D通过直接捕捉深度通道,实现了更准确的3D标注和更广泛的应用。数据集使用iPhone全方位拍摄对象,涵盖了约8500个记录的对象和近20000个RGB-D视频,跨足46个常见对象类别。这些视频以杂乱的背景为特点,分为三种设置,覆盖了大多数真实世界场景。
数据集注释包括对象掩模、真实世界尺度的摄像机姿态以及从RGBD视频重建的聚合点云。为了获得真实世界尺度的相机姿态,研究团队应用了RGBD Simultaneous Localization and Mapping (SLAM)算法,结合手机深度传感器的RGB图像和深度信息,实现了对3D相机姿态和点云的重建。
3D视觉工坊
,赞 3
1 引言
本文指出了计算机视觉近期发展的趋势,强调了对大规模训练数据的依赖,并介绍了3D对象建模领域的最新进展。
通过分析合成和真实数据集的局限性,强调了将在模拟中训练的模型应用于真实世界的挑战。
提出了新的数据集WildRGB-D,包含大规模的RGB-D对象视频,覆盖了多个对象类别,解决了现有数据集的不足之处。
数据集特点包括使用iPhone环绕对象拍摄,涵盖了单一对象、多个对象和手-对象等多种场景,以更好地模拟真实世界情境。
通过RGB-D捕捉进行自动注释,应用了同时定位与映射(SLAM)算法,实现了真实世界尺度上的3D相机姿态和聚合的3D点云的重建。
在四个下游任务中对WildRGB-D进行基准测试,包括新视角合成、摄像机姿态估计、对象表面重建和对象6D姿态估计。
实验结果表明,WildRGB-D具有巨大潜力,可以推动3D对象学习,尤其在新视角合成、摄像机姿态估计和对象表面重建方面取得了显著的成果。
2 方法
通过iPhone前置摄像头利用Record3D 1应用程序,采集了大规模的RGBD视频,涵盖了46个常见类别的对象,包括单对象、多对象和手-对象等场景。
WildRGB-D数据集包含3D注释,包括真实世界尺度的相机姿态、场景点云和中心对象掩模。
通过使用成熟的RGBD SLAM算法,本文实现了相机姿态的真实世界尺度重建,并获得了聚合的3D点云。
中心对象掩模的生成采用了Segment-Anything (SAM)工具,通过Grounding-DINO生成提示,再应用XMem进行跟踪。
在WildRGB-D数据集中,记录了8500个对象,每个对象有3个视频。在排除SLAM失败的视频后,数据集包含8367个对象和23049个视频,涵盖了单对象、多对象和手-对象视频。
WildRGB-D数据集为大规模RGB-D视频的收集和注释提供了有力的基础,为进一步推动3D对象学习和相关研究领域的发展提供了丰富的资源。
3 总结
采集了最大规模的对象中心RGB-D视频数据集WildRGB-D,包含大量杂乱场景中的类别级RGB-D对象视频。
数据集涵盖了约8500个记录的对象和近20000个RGB-D视频,跨足46个常见对象类别,使用iPhone环绕对象360度拍摄,有三种设置覆盖了大多数场景。
数据集注释包括对象掩模、真实世界尺度的摄像机姿态以及从RGBD视频重建的聚合点云。
通过WildRGB-D设置了四个评估任务,证明大规模捕捉RGB-D对象有助于推动3D对象学习。
下载
在公众号「3D视觉工坊 」后台,回复「 3dcv 」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。
3D视觉方向交流群成立啦
目前工坊已经建立了3D视觉方向多个社群,包括 SLAM、工业3D视觉、自动驾驶、三维重建、无人机 方向, 细分群 包括:
[工业3D视觉 ]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
[SLAM ]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
[自动驾驶 ]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
[ 三维重建 ]NeRF、多视图几何、 OpenMVS、MVSNet、colmap、纹理贴图等
[无人机 ]四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群