來源:3D視覺工坊
論文題目: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos
作者:Hongchi Xia, Yang Fu等
作者機構: Shanghai Jiao Tong University等
論文連結:https://arxiv.org/pdf/2401.12592.pdf
計畫連結:https://wildrgbd.github.io/
本研究引入了一項名為WildRGB-D的新型RGB-D物件數據集,該數據集在野外捕獲,透過直接獲取深度通道,實作更精準的3D標註和更廣泛的套用。WildRGB-D包含大規模的類別級RGB-D物件視訊,使用iPhone全方位拍攝物件360度,覆蓋了約8500個記錄的物件和近20000個RGB-D視訊,涉及46個常見物件類別。這些視訊采用多樣化的雜亂背景,分為三種設定:(i)單個物件在一個視訊中;(ii)多個物件在一個視訊中;以及(iii)物件與靜態手在一個視訊中。數據集經過註釋,包括物件掩模、真實尺度的攝影機姿態以及從RGBD視訊中重建的聚合點雲。研究使用WildRGB-D進行四項任務的基準測試,包括新視角合成、攝影機姿態估計、物件6D姿態估計和物件表面重建。實驗證明,大規模捕捉RGB-D物件為推動3D物件學習提供了巨大潛力。
+v:dddvision,備註:SLAM,拉你入群,文末附行業細分群。
讀者理解:
在這項研究中,研究團隊提出並介紹了一個新的大規模RGB-D物件視訊數據集,命名為WildRGB-D。相較於現有的真實世界物件為中心的數據集,WildRGB-D透過直接捕捉深度通道,實作了更準確的3D標註和更廣泛的套用。數據集使用iPhone全方位拍攝物件,涵蓋了約8500個記錄的物件和近20000個RGB-D視訊,跨足46個常見物件類別。這些視訊以雜亂的背景為特點,分為三種設定,覆蓋了大多數真實世界場景。
數據集註釋包括物件掩模、真實世界尺度的攝影機姿態以及從RGBD視訊重建的聚合點雲。為了獲得真實世界尺度的相機姿態,研究團隊套用了RGBD Simultaneous Localization and Mapping (SLAM)演算法,結合手機深度傳感器的RGB影像和深度資訊,實作了對3D相機姿態和點雲的重建。
3D視覺工坊
,贊 3
1 引言
本文指出了電腦視覺近期發展的趨勢,強調了對大規模訓練數據的依賴,並介紹了3D物件建模領域的最新進展。
透過分析合成和真實數據集的局限性,強調了將在模擬中訓練的模型套用於真實世界的挑戰。
提出了新的數據集WildRGB-D,包含大規模的RGB-D物件視訊,覆蓋了多個物件類別,解決了現有數據集的不足之處。
數據集特點包括使用iPhone環繞物件拍攝,涵蓋了單一物件、多個物件和手-物件等多種場景,以更好地模擬真實世界情境。
透過RGB-D捕捉進行自動註釋,套用了同時定位與對映(SLAM)演算法,實作了真實世界尺度上的3D相機姿態和聚合的3D點雲的重建。
在四個下遊任務中對WildRGB-D進行基準測試,包括新視角合成、攝影機姿態估計、物件表面重建和物件6D姿態估計。
實驗結果表明,WildRGB-D具有巨大潛力,可以推動3D物件學習,尤其在新視角合成、攝影機姿態估計和物件表面重建方面取得了顯著的成果。
2 方法
透過iPhone前置網路攝影機利用Record3D 1應用程式,采集了大規模的RGBD視訊,涵蓋了46個常見類別的物件,包括單物件、多物件和手-物件等場景。
WildRGB-D數據集包含3D註釋,包括真實世界尺度的相機姿態、場景點雲和中心物件掩模。
透過使用成熟的RGBD SLAM演算法,本文實作了相機姿態的真實世界尺度重建,並獲得了聚合的3D點雲。
中心物件掩模的生成采用了Segment-Anything (SAM)工具,透過Grounding-DINO生成提示,再套用XMem進行跟蹤。
在WildRGB-D數據集中,記錄了8500個物件,每個物件有3個視訊。在排除SLAM失敗的視訊後,數據集包含8367個物件和23049個視訊,涵蓋了單物件、多物件和手-物件視訊。
WildRGB-D數據集為大規模RGB-D視訊的收集和註釋提供了有力的基礎,為進一步推動3D物件學習和相關研究領域的發展提供了豐富的資源。
3 總結
采集了最大規模的物件中心RGB-D視訊數據集WildRGB-D,包含大量雜亂場景中的類別級RGB-D物件視訊。
數據集涵蓋了約8500個記錄的物件和近20000個RGB-D視訊,跨足46個常見物件類別,使用iPhone環繞物件360度拍攝,有三種設定覆蓋了大多數場景。
數據集註釋包括物件掩模、真實世界尺度的攝影機姿態以及從RGBD視訊重建的聚合點雲。
透過WildRGB-D設定了四個評估任務,證明大規模捕捉RGB-D物件有助於推動3D物件學習。
下載
在公眾號「3D視覺工坊 」後台,回復「 3dcv 」,即可獲取工業3D視覺、SLAM、自動駕駛、三維重建、事件相機、無人機等近千余篇最新頂會論文;巴塞隆納自治大學和慕尼黑工業大學3D視覺和視覺導航精品課件;相機標定、結構光、三維重建、SLAM,深度估計、模型部署、3D目標檢測等學習資料。
3D視覺方向交流群成立啦
目前工坊已經建立了3D視覺方向多個社群,包括 SLAM、工業3D視覺、自動駕駛、三維重建、無人機 方向, 細分群 包括:
[工業3D視覺 ]相機標定、立體匹配、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。
[SLAM ]視覺SLAM、雷射SLAM、語意SLAM、濾波演算法、多傳感器融合、多傳感器標定、動態SLAM、MOT SLAM、NeRF SLAM、機器人導航等。
[自動駕駛 ]深度估計、Transformer、公釐波|雷射雷達|視覺網路攝影機傳感器、多傳感器標定、多傳感器融合、自動駕駛綜合群等、3D目標檢測、路徑規劃、軌跡預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目標跟蹤等。
[ 三維重建 ]NeRF、多檢視幾何、 OpenMVS、MVSNet、colmap、紋理貼圖等
[無人機 ]四旋翼建模、無人機飛控等
除了這些,還有求職、硬體選型、視覺產品落地、最新論文、3D視覺最新產品、3D視覺行業新聞等交流群