3D數據的表示方法

2024-01-08科學

3D數據表示是電腦圖形學、機器人技術、視覺化和許多其他技術的基礎。

1. 原數據（Raw data）

原始3D數據可以透過不同的掃描器材獲得，如雙目模組、結構光模組等。一些流行的3D數據表示屬於這一組是點雲（Point Cloud），RGB-D和3D投影（3D Data Projections）。

1.1 點雲（Point Cloud）

點雲是一組3D數據點，每個點由笛卡爾座標系或其他座標系中的一個三維座標表示，它被認為是一組非結構化的三維點，象征著三維物體的幾何形狀，並被用於許多電腦視覺任務。如分類與分割、目標辨識、重建等。

點雲由於其不規則的結構而成為一種特殊的三維數據表示形式。點雲是一種簡單、完整的數據結構，消除了網格數據的復雜性。

盡管可以輕松獲得點雲，但由於點雲中缺乏連線資訊，並且在采集設定中從環境中捕獲點雲，因此處理點雲可能具有挑戰性。得到的點雲有時是不完整的，由於傳感器和其他環境因素的影響，會產生雜訊和數據缺失。

圖1：Point Cloud

1.2 RGB-D

雙目模組、結構光模組等3D傳感器可用於將3D數據表征為RGB-D數據。透過給出深度圖(D)和顏色資訊(RGB)，獲得的三維物體的2.5D數據。

許多RGB-D數據集可用，如RGB-D物件數據集，SUN 3D等等。RGB-D數據被證明在姿態回歸、對應和字元辨識中是有效的。但是，平面2D數據的深度和顏色不足以表示3D物體的完整幾何形狀。

圖2：RGB-D

1.3 3D投影（3D DATA PROJECTIONS）

3D投影是一種將3D點對映到2D平面的方法。它是用虛投影來實作的，虛投影賦予了投影數據原始三維物體的關鍵特征。許多投影方法將3D模型轉換為具有關鍵內容的2D網格。球面投影使投影的數據不受旋轉的影響。然而，在復雜的電腦視覺任務中，由於投影中的資訊遺失。該方法並不是最優的。

圖3：3D Data Projections

2. 實體（solid）

三維模型的實體表示實際上是給定物件的空間控制資訊。通常資訊是二進制的，這意味著空間可以被物件占用，也可以不被物件占用。

2.1 八叉樹（OCTREE）

八叉樹是一種簡化的數據結構，可以有效地儲存三維數據。它是二維四叉樹的擴充套件。八叉樹中的單個節點包含八個子節點。八叉樹只是一個波動大小的體素，它被認為是最分散的體素表示之一。它具有記憶體利用率高的優點，可用於生成高分辨率體素。然而，它有一個主要的缺點，那就是它無法保持一些3D的幾何形狀物體喜歡光滑的表面。

圖4：OCTREE

2.2 體素（Voxels）

體素透過描述3D物件在場景的三維空間中分配的方式來表示3D數據。透過對三維形狀的檢視資訊進行編碼，可以將被占用的體素劃分為可見塊或自遮擋體素。體素的主要限制是由於表示已占用和未占用場景而需要不必要的儲存，對記憶體儲存的巨大需求使得它不足以滿足高分辨率數據。

圖5：Voxels

3. 表面多邊形（surface）

表面多邊形通常用於三維物體的邊界表示，它包圍著物體的內部部份。這些多邊形的集合通常儲存用於物體的描述，由於所有的表面都可以用線性方程式來表征，因此具有簡單和快速的表面渲染和物體顯示的優點。三維物體的表面表示有很多方法，如多邊形網格、細分、參數化和隱式等，但在這些表示中，多邊形網格（polygon mesh）是最常用的表面表示方式。

3D網格（3D Mesh）由頂點、邊緣和面組成，主要用於電腦圖形應用程式的3D物件儲存和渲染目的。頂點包含連線列表，描述每個頂點如何相互連線。網格數據的主要挑戰是不規則和非常復雜。

圖6：3D Mesh

4. High-Level Structures

在3D形狀檢索和分類中，需要對3D物件進行簡潔、豐富的表示，以便將一個物件描述為某個類別的代表。三維形狀可以以高級三維形狀描述符的形式表示，它是包含三維物體幾何特征的簡化表示。除了三維描述符外，圖形（Graph）還可以以高級結構的形式表示。

4.1 3D描述符（3D Descriptors）

三維形狀描述符在三維形狀檢索和其他形狀分析任務中起著重要作用。3D形狀檢索可以描述為從包含許多3D模型的數據庫中查詢一個3D物件以發現最接近的匹配，為了保持海量的3D數據並快速查詢以找到最接近的匹配，需要將形狀轉換為特征描述符。三維形狀描述符可以分為全域描述符和局部描述符。三維形狀描述符的其他類別還有基於擴散的和非基於擴散的[如統計矩、光場描述符和傅立葉描述符。

圖7：3D Descriptors

4.2圖形（Graph）

圖形三維數據表示透過圖形連線不同形狀的部件，收集三維物件的幾何本質。圖方法通常根據所使用的圖的類別分為三種，如模型圖、reeb圖和骨架圖。

圖8：Graph

5.多檢視數據（Multi View Data）

3D數據表示的另一種形式是從檢視的真實性中渲染一組影像，並將這組影像作為CNN（摺積神經網絡）的輸入，用於形狀分析任務。這些方法的主要優點是它們可以處理高分辨率的輸入，以及利用基於完整影像的CNN進行3D形狀分析任務。然而，這些方法的主要缺點是確定檢視數量和自遮擋，如果檢視數量很大，則會導致巨大的計算成本。

圖9：Multi View Data

參考資料：

1. ABUBAKAR SULAIMAN GEZAWA, YAN ZHANG 【A Review on Deep Learning Approaches for 3D Data Representations in Retrieval and classifications】

2.【視覺深度學習的三維重建方法綜述_李明陽】

3.【3D目標檢測方法研究綜述_黃哲】