iPhone輕松搞定！用手機制作高級RGB-D數據集！

2024-01-29手機

來源：3D視覺工坊

論文題目： RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

作者：Hongchi Xia, Yang Fu等

作者機構： Shanghai Jiao Tong University等

論文連結：https://arxiv.org/pdf/2401.12592.pdf

專案連結：https://wildrgbd.github.io/

本研究引入了一項名為WildRGB-D的新型RGB-D物件數據集，該數據集在野外捕獲，透過直接獲取深度通道，實作更精準的3D標註和更廣泛的套用。WildRGB-D包含大規模的類別級RGB-D物件影片，使用iPhone全方位拍攝物件360度，覆蓋了約8500個記錄的物件和近20000個RGB-D影片，涉及46個常見物件類別。這些影片采用多樣化的雜亂背景，分為三種設定：（i）單個物件在一個影片中；（ii）多個物件在一個影片中；以及（iii）物件與靜態手在一個影片中。數據集經過註釋，包括物件掩模、真實尺度的攝影機姿態以及從RGBD影片中重建的聚合點雲。研究使用WildRGB-D進行四項任務的基準測試，包括新視角合成、攝影機姿態估計、物件6D姿態估計和物件表面重建。實驗證明，大規模捕捉RGB-D物件為推動3D物件學習提供了巨大潛力。

+v：dddvision，備註：SLAM，拉你入群，文末附行業細分群。

讀者理解：

在這項研究中，研究團隊提出並介紹了一個新的大規模RGB-D物件影片數據集，命名為WildRGB-D。相較於現有的真實世界物件為中心的數據集，WildRGB-D透過直接捕捉深度通道，實作了更準確的3D標註和更廣泛的套用。數據集使用iPhone全方位拍攝物件，涵蓋了約8500個記錄的物件和近20000個RGB-D影片，跨足46個常見物件類別。這些影片以雜亂的背景為特點，分為三種設定，覆蓋了大多數真實世界場景。

數據集註釋包括物件掩模、真實世界尺度的攝影機姿態以及從RGBD影片重建的聚合點雲。為了獲得真實世界尺度的相機姿態，研究團隊套用了RGBD Simultaneous Localization and Mapping (SLAM)演算法，結合手機深度傳感器的RGB影像和深度資訊，實作了對3D相機姿態和點雲的重建。

3D視覺工坊

，贊 3

1 引言

本文指出了電腦視覺近期發展的趨勢，強調了對大規模訓練數據的依賴，並介紹了3D物件建模領域的最新進展。

透過分析合成和真實數據集的局限性，強調了將在模擬中訓練的模型套用於真實世界的挑戰。

提出了新的數據集WildRGB-D，包含大規模的RGB-D物件影片，覆蓋了多個物件類別，解決了現有數據集的不足之處。

數據集特點包括使用iPhone環繞物件拍攝，涵蓋了單一物件、多個物件和手-物件等多種場景，以更好地模擬真實世界情境。

透過RGB-D捕捉進行自動註釋，套用了同時定位與對映（SLAM）演算法，實作了真實世界尺度上的3D相機姿態和聚合的3D點雲的重建。

在四個下遊任務中對WildRGB-D進行基準測試，包括新視角合成、攝影機姿態估計、物件表面重建和物件6D姿態估計。

實驗結果表明，WildRGB-D具有巨大潛力，可以推動3D物件學習，尤其在新視角合成、攝影機姿態估計和物件表面重建方面取得了顯著的成果。