当前位置: 华文世界 > 手机

iPhone轻松搞定!用手机制作高级RGB-D数据集!

2024-01-29手机

来源:3D视觉工坊

论文题目: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

作者:Hongchi Xia, Yang Fu等

作者机构: Shanghai Jiao Tong University等

论文链接:https://arxiv.org/pdf/2401.12592.pdf

项目链接:https://wildrgbd.github.io/

本研究引入了一项名为WildRGB-D的新型RGB-D对象数据集,该数据集在野外捕获,通过直接获取深度通道,实现更精准的3D标注和更广泛的应用。WildRGB-D包含大规模的类别级RGB-D对象视频,使用iPhone全方位拍摄对象360度,覆盖了约8500个记录的对象和近20000个RGB-D视频,涉及46个常见对象类别。这些视频采用多样化的杂乱背景,分为三种设置:(i)单个对象在一个视频中;(ii)多个对象在一个视频中;以及(iii)对象与静态手在一个视频中。数据集经过注释,包括对象掩模、真实尺度的摄像机姿态以及从RGBD视频中重建的聚合点云。研究使用WildRGB-D进行四项任务的基准测试,包括新视角合成、摄像机姿态估计、对象6D姿态估计和对象表面重建。实验证明,大规模捕捉RGB-D对象为推动3D对象学习提供了巨大潜力。

+v:dddvision,备注:SLAM,拉你入群,文末附行业细分群。

读者理解:

在这项研究中,研究团队提出并介绍了一个新的大规模RGB-D对象视频数据集,命名为WildRGB-D。相较于现有的真实世界对象为中心的数据集,WildRGB-D通过直接捕捉深度通道,实现了更准确的3D标注和更广泛的应用。数据集使用iPhone全方位拍摄对象,涵盖了约8500个记录的对象和近20000个RGB-D视频,跨足46个常见对象类别。这些视频以杂乱的背景为特点,分为三种设置,覆盖了大多数真实世界场景。

数据集注释包括对象掩模、真实世界尺度的摄像机姿态以及从RGBD视频重建的聚合点云。为了获得真实世界尺度的相机姿态,研究团队应用了RGBD Simultaneous Localization and Mapping (SLAM)算法,结合手机深度传感器的RGB图像和深度信息,实现了对3D相机姿态和点云的重建。

3D视觉工坊

,赞 3

1 引言

本文指出了计算机视觉近期发展的趋势,强调了对大规模训练数据的依赖,并介绍了3D对象建模领域的最新进展。

  • 通过分析合成和真实数据集的局限性,强调了将在模拟中训练的模型应用于真实世界的挑战。

  • 提出了新的数据集WildRGB-D,包含大规模的RGB-D对象视频,覆盖了多个对象类别,解决了现有数据集的不足之处。

  • 数据集特点包括使用iPhone环绕对象拍摄,涵盖了单一对象、多个对象和手-对象等多种场景,以更好地模拟真实世界情境。

  • 通过RGB-D捕捉进行自动注释,应用了同时定位与映射(SLAM)算法,实现了真实世界尺度上的3D相机姿态和聚合的3D点云的重建。

  • 在四个下游任务中对WildRGB-D进行基准测试,包括新视角合成、摄像机姿态估计、对象表面重建和对象6D姿态估计。

  • 实验结果表明,WildRGB-D具有巨大潜力,可以推动3D对象学习,尤其在新视角合成、摄像机姿态估计和对象表面重建方面取得了显著的成果。

  • 2 方法

  • 通过iPhone前置摄像头利用Record3D 1应用程序,采集了大规模的RGBD视频,涵盖了46个常见类别的对象,包括单对象、多对象和手-对象等场景。

  • WildRGB-D数据集包含3D注释,包括真实世界尺度的相机姿态、场景点云和中心对象掩模。

  • 通过使用成熟的RGBD SLAM算法,本文实现了相机姿态的真实世界尺度重建,并获得了聚合的3D点云。

  • 中心对象掩模的生成采用了Segment-Anything (SAM)工具,通过Grounding-DINO生成提示,再应用XMem进行跟踪。

  • 在WildRGB-D数据集中,记录了8500个对象,每个对象有3个视频。在排除SLAM失败的视频后,数据集包含8367个对象和23049个视频,涵盖了单对象、多对象和手-对象视频。

  • WildRGB-D数据集为大规模RGB-D视频的收集和注释提供了有力的基础,为进一步推动3D对象学习和相关研究领域的发展提供了丰富的资源。

  • 3 总结

  • 采集了最大规模的对象中心RGB-D视频数据集WildRGB-D,包含大量杂乱场景中的类别级RGB-D对象视频。

  • 数据集涵盖了约8500个记录的对象和近20000个RGB-D视频,跨足46个常见对象类别,使用iPhone环绕对象360度拍摄,有三种设置覆盖了大多数场景。

  • 数据集注释包括对象掩模、真实世界尺度的摄像机姿态以及从RGBD视频重建的聚合点云。

  • 通过WildRGB-D设置了四个评估任务,证明大规模捕捉RGB-D对象有助于推动3D对象学习。

  • 下载

    在公众号「3D视觉工坊 」后台,回复「 3dcv 」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

    3D视觉方向交流群成立啦

    目前工坊已经建立了3D视觉方向多个社群,包括 SLAM、工业3D视觉、自动驾驶、三维重建、无人机 方向, 细分群 包括:

    [工业3D视觉 ]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

    [SLAM ]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

    [自动驾驶 ]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

    [ 三维重建 ]NeRF、多视图几何、 OpenMVS、MVSNet、colmap、纹理贴图等

    [无人机 ]四旋翼建模、无人机飞控等

    除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群