給AI裝一雙「慧眼」，深圳先進院團隊研發出多視角4D人臉掃描系統

2024-04-30科技

影像辨識、智能助手、虛擬人、文生影片……通用人工智能技術的不斷發展和創新，讓人們進一步向智能時代邁進。然而，目前運用人工智能技術呈現的影像畫面大多以二維效果為主，在空間、時間和細節方面仍有較大上升空間。

宋展與團隊成員偵錯多視角4D人臉掃描系統。林一程攝

如何為AI裝一雙「慧眼」，讓畫面看的更清、更細、更自然？ 4月29日，記者從中國科學院深圳先進技術研究院了解到，該院整合技術研究所機器視覺研究中心研究員宋展團隊在人臉動態三維成像技術領域取得進展，研究團隊自主研發出多視角4D高精度人臉三維成像系統，相較傳統的3D人臉掃描技術，該系統在精度、分辨率和速度上均實作大幅提升，可套用在包括但不限於人臉辨識、醫療診斷、影視特效等方面。

據介紹，研究團隊開發的多視角4D人臉掃描系統，由三個不同近紅外波段的結構光相機構成，底層演算法采用了宋展團隊提出的高頻條紋位移編碼三維重建方法，可以實作1080P（1920*1080像素）分辨率下超過100幀每秒的三維掃描速度，基於GPU的高並列三維重建演算法可實作高達300赫茲的即時重建速度，且深度成像誤差小於0.05毫米。

「每個深度相機都由一個近紅外結構光投影光柵和一個工業相機組成，深度相機每重建一次，投影機都要向被測物體投射一組預設高頻條紋圖案，並用相機拍下這些圖案在被測物體上產生變形的圖案。最終，根據相機拍到的變形圖案分析得到深度資訊，即3D資訊。深度相機實作連續掃描，增加了時間軸資訊，由此得到4D資訊。」深圳先進院整合所在讀碩士生吳迪解釋道。

此外，為了實作多角度更為完整的三維人臉動態成像，該系統采用了三種不同波段的近紅外光（人眼不可見）作為光源，既避免了人臉產生炫目，還避免了三套器材投影機投射圖案相互幹擾，大大改善了成像完整性

「近紅外光低，對人眼友好，但是對皮膚具有一定的穿透性，使得投射的高頻光柵圖案產生模糊，降低了三維重建精度。」宋展表示，對此，研究團隊采用了創新的影像增強演算法，結合高魯棒性的條紋編解碼演算法突破，提高了解碼投射圖案的相位計算精度，從而提高了三維重建精度，與此同時還要考慮演算法的即時性和並列性，為3D動態模型獲取、頭部姿態估計和面部表情遷移等基礎工作的研究提供高精度的數據支持。

宋展介紹，該系統在多個領域套用前景廣闊，例如，在新型顯示技術方面，有望為全像投影、空氣成像等新型顯示技術，以及AR顯示終端提供三維數據采集器材；在影視領域，可即時捕捉演員的高精度面部表情，結合表情遷移技術，實作從真人的表情到卡通形象的表情遷移；在遊戲領域，該系統可捕捉使用者面部資訊，結合視線追蹤技術實作人機互動；在醫療領域，該系統可幫助提供患者面部表情資訊，助力醫療診斷等；在人形機器人領域，該技術可以為機器人提供更加精確而敏銳的4D視覺感知方法，讓其從只能幹粗活變成可以幹更多精細的活。

人工智能技術的發展，很大程度上依賴於數據驅動。「二維平面上生成的影像或影片往往難以呈現出真實世界的三維結構，未來，AI技術生成的影片會逐漸從二維影片向三維影片發展，想要生成更高質素的三維影片，離不開三維數據的支撐。」宋展說道，該系統可以為「3D+AI」研究提供了真實、精細的高質素三維數據，解決了目前該研究領域高精度三維數據不足的問題，為AI模型生成更高質素的影片提供即時、高精度的、高分辨率的數據支撐。

據了解，目前研究團隊已將該技術運用到電影特效、特種加工、面部3D診療、動態3D視覺引導裝配等方面，並取得了良好的效果。未來，研究團隊還將進一步加強底層演算法研究，進一步提高編碼效率成像速度，降低硬件成本，研制模組化高時空分辨率4D成像器件，將其套用於更多的工業和資訊通訊領域，為新質生產力發展提供銳利的視覺成像技術支撐。

（作者：深圳特區報記者聞坤）