當前位置: 華文世界 > 手機

iPhone輕松搞定!用手機制作高級RGB-D數據集!

2024-01-29手機

來源:3D視覺工坊

論文題目: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

作者:Hongchi Xia, Yang Fu等

作者機構: Shanghai Jiao Tong University等

論文連結:https://arxiv.org/pdf/2401.12592.pdf

專案連結:https://wildrgbd.github.io/

本研究引入了一項名為WildRGB-D的新型RGB-D物件數據集,該數據集在野外捕獲,透過直接獲取深度通道,實作更精準的3D標註和更廣泛的套用。WildRGB-D包含大規模的類別級RGB-D物件影片,使用iPhone全方位拍攝物件360度,覆蓋了約8500個記錄的物件和近20000個RGB-D影片,涉及46個常見物件類別。這些影片采用多樣化的雜亂背景,分為三種設定:(i)單個物件在一個影片中;(ii)多個物件在一個影片中;以及(iii)物件與靜態手在一個影片中。數據集經過註釋,包括物件掩模、真實尺度的攝影機姿態以及從RGBD影片中重建的聚合點雲。研究使用WildRGB-D進行四項任務的基準測試,包括新視角合成、攝影機姿態估計、物件6D姿態估計和物件表面重建。實驗證明,大規模捕捉RGB-D物件為推動3D物件學習提供了巨大潛力。

+v:dddvision,備註:SLAM,拉你入群,文末附行業細分群。

讀者理解:

在這項研究中,研究團隊提出並介紹了一個新的大規模RGB-D物件影片數據集,命名為WildRGB-D。相較於現有的真實世界物件為中心的數據集,WildRGB-D透過直接捕捉深度通道,實作了更準確的3D標註和更廣泛的套用。數據集使用iPhone全方位拍攝物件,涵蓋了約8500個記錄的物件和近20000個RGB-D影片,跨足46個常見物件類別。這些影片以雜亂的背景為特點,分為三種設定,覆蓋了大多數真實世界場景。

數據集註釋包括物件掩模、真實世界尺度的攝影機姿態以及從RGBD影片重建的聚合點雲。為了獲得真實世界尺度的相機姿態,研究團隊套用了RGBD Simultaneous Localization and Mapping (SLAM)演算法,結合手機深度傳感器的RGB影像和深度資訊,實作了對3D相機姿態和點雲的重建。

3D視覺工坊

,贊 3

1 引言

本文指出了電腦視覺近期發展的趨勢,強調了對大規模訓練數據的依賴,並介紹了3D物件建模領域的最新進展。

  • 透過分析合成和真實數據集的局限性,強調了將在模擬中訓練的模型套用於真實世界的挑戰。

  • 提出了新的數據集WildRGB-D,包含大規模的RGB-D物件影片,覆蓋了多個物件類別,解決了現有數據集的不足之處。

  • 數據集特點包括使用iPhone環繞物件拍攝,涵蓋了單一物件、多個物件和手-物件等多種場景,以更好地模擬真實世界情境。

  • 透過RGB-D捕捉進行自動註釋,套用了同時定位與對映(SLAM)演算法,實作了真實世界尺度上的3D相機姿態和聚合的3D點雲的重建。

  • 在四個下遊任務中對WildRGB-D進行基準測試,包括新視角合成、攝影機姿態估計、物件表面重建和物件6D姿態估計。

  • 實驗結果表明,WildRGB-D具有巨大潛力,可以推動3D物件學習,尤其在新視角合成、攝影機姿態估計和物件表面重建方面取得了顯著的成果。

  • 2 方法

  • 透過iPhone前置網絡攝影機利用Record3D 1應用程式,采集了大規模的RGBD影片,涵蓋了46個常見類別的物件,包括單物件、多物件和手-物件等場景。

  • WildRGB-D數據集包含3D註釋,包括真實世界尺度的相機姿態、場景點雲和中心物件掩模。

  • 透過使用成熟的RGBD SLAM演算法,本文實作了相機姿態的真實世界尺度重建,並獲得了聚合的3D點雲。

  • 中心物件掩模的生成采用了Segment-Anything (SAM)工具,透過Grounding-DINO生成提示,再套用XMem進行跟蹤。

  • 在WildRGB-D數據集中,記錄了8500個物件,每個物件有3個影片。在排除SLAM失敗的影片後,數據集包含8367個物件和23049個影片,涵蓋了單物件、多物件和手-物件影片。

  • WildRGB-D數據集為大規模RGB-D影片的收集和註釋提供了有力的基礎,為進一步推動3D物件學習和相關研究領域的發展提供了豐富的資源。

  • 3 總結

  • 采集了最大規模的物件中心RGB-D影片數據集WildRGB-D,包含大量雜亂場景中的類別級RGB-D物件影片。

  • 數據集涵蓋了約8500個記錄的物件和近20000個RGB-D影片,跨足46個常見物件類別,使用iPhone環繞物件360度拍攝,有三種設定覆蓋了大多數場景。

  • 數據集註釋包括物件掩模、真實世界尺度的攝影機姿態以及從RGBD影片重建的聚合點雲。

  • 透過WildRGB-D設定了四個評估任務,證明大規模捕捉RGB-D物件有助於推動3D物件學習。

  • 下載

    在公眾號「3D視覺工坊 」後台,回復「 3dcv 」,即可獲取工業3D視覺、SLAM、自動駕駛、三維重建、事件相機、無人機等近千余篇最新頂會論文;巴塞隆拿自治大學和慕尼黑工業大學3D視覺和視覺導航精品課件;相機標定、結構光、三維重建、SLAM,深度估計、模型部署、3D目標檢測等學習資料。

    3D視覺方向交流群成立啦

    目前工坊已經建立了3D視覺方向多個社群,包括 SLAM、工業3D視覺、自動駕駛、三維重建、無人機 方向, 細分群 包括:

    [工業3D視覺 ]相機標定、立體匹配、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

    [SLAM ]視覺SLAM、激光SLAM、語意SLAM、濾波演算法、多傳感器融合、多傳感器標定、動態SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

    [自動駕駛 ]深度估計、Transformer、毫米波|激光雷達|視覺網絡攝影機傳感器、多傳感器標定、多傳感器融合、自動駕駛綜合群等、3D目標檢測、路徑規劃、軌跡預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目標跟蹤等。

    [ 三維重建 ]NeRF、多檢視幾何、 OpenMVS、MVSNet、colmap、紋理貼圖等

    [無人機 ]四旋翼建模、無人機飛控等

    除了這些,還有求職、硬件選型、視覺產品落地、最新論文、3D視覺最新產品、3D視覺行業新聞等交流群