當前位置: 華文世界 > 科技

騰訊3D大模型全面開源,文本影像10秒轉3D資產

2024-11-05科技
西風 發自 凹非寺 量子位 | 公眾號 QbitAI
3D生成開源界首個同時支持文字、影像轉3D 的模型來了,效果還是SOTA級別。
就在剛剛,騰訊宣布推出Hunyuan3D-1.0 ,一口氣開源輕量版和標準版兩個模型。
最快10秒 就能端到端生成。
先生成6個多視角影像,再進行多視角重建,「啪」的一下360度無死角的3D資產就造出來了。
無論是人物形象:
還是像下面這樣嬸兒的葡萄等復雜結構生成,細節都蠻不錯:
薄薄的楓葉也能完整生成:
鏤空雕刻花紋生成效果Belike:
實驗中,Hunyuan3D-1.0定性定量評估均超越此前SOTA開源模型,推理效能提升很大,輕量版A100 GPU上生成時間約10秒,標準版約25秒。
目前Hunyuan3D-1.0模型權重、推理程式碼、模型演算法等,已全部開源。
量子位童鞋在釋出現場,還拿到了3D生成後直接拿來3D打印的小手辦~
多檢視生成、重建兩步煉成
技術實作上,騰訊混元團隊釋出了一份技術報告。
Hunyuan3D-1.0模型架構如下,采用多檢視生成、多檢視重建兩階段生成方法。
對於輸入影像,首先使用多視角擴散模型在固定相機視角下合成6個新視角影像 ,從不同的視角捕捉了3D資產豐富的紋理和幾何先驗,將3D生成任務從單視角重建轉化為難度更低的多視角重建任務。
然後將生成的多視角影像輸入基於Transformer的稀疏視角大規模重建模型 。
利用上一階段生成的多視角影像,重建模型學習處理多視角擴散引入的雜訊和不一致性,並利用條件影像中的可用資訊高效恢復3D結構。
最終,該模型可以實作輸入任意單視角生成3D資產 。
具體來說,第一階段多檢視生成采用了自適應CFG ( classifer-free guidance),為不同視角和time steps設定不同的CFG尺度值。
在輸入視角的臨近視角CFG大,保證生成控制更強,與輸入圖更接近;較遠視角CFG小,生成diversity更大,保證生成影像的真實性。
另外,為了保證角度魯棒性、相容任意輸入視角,渲染訓練數據時候,渲染不同俯仰角作為輸入,輸出0°俯仰角的多檢視。
輸入任意視角影像,生成環繞一圈的俯仰角elevation=0的6張圖,最大化多檢視間的可見區域,並透過attention保持多視角一致,為下一步的多檢視重建模型提供高一致性、高真實性的多檢視影像。
在第二階段多檢視重建方面,Hunyuan3D-1.0結合了已校準(生成的多視角影像)和未校準(使用者輸入)的混合輸入 ,透過專門的視角無關分支整合條件影像資訊,由此以提升生成影像中的不可見部份精度。
影像資訊透過cross-attention註入triplane token中。
Hunyuan3D-1.0還透過線性層將特征平面的分辨率從64上采樣到256,使得特征表征更加細膩,生成物體細節更豐富。
值得一提的是,Hunyuan3D-1.0還采用了Signed distance function(SDF)的隱式表示,最後透過Marching cube演算法在三維空間進行采樣查詢得到signed distance來輸出3D mesh,可以直接與3D管線結合。
拿下開源新SOTA
實驗結果顯示,Hunyuan3D-1.0具有強大泛化能力和可控性,可重建各類尺度物體,大到建築,小到工具花草。
在兩個公開3D數據集GSO、OmniObject3D上定量評估3D生成質素,包括Chamfer Distance(CD)、F-score (FS)指標,Hunyuan3D-1.0表現總體最優 。
定性評估方面,Hunyuan3D-1.0在幾何細節、紋理細節、紋理-幾何一致性、3D合理性、指令遵循等評價維度上,全面超越SOTA開源模型 。
使用者喜好打分結果如下:
Hunyuan3D-1.0在保證高質素、多樣化生成之外,推理效能也大幅提升,顯著減少了3D資產生產的耗時。
「3D生成技術今年已進入快速發展階段」
推出Hunyuan3D-1.0的同時,騰訊混元3D大模型也正在落地套用中——
據了解,騰訊地圖 目前就已基於騰訊混元3D大模型,釋出了自訂3D導航車標功能,支持使用者創作個人化的3D導航車標。
騰訊元寶APP 也上線了「3D角色夢工廠」,支持個人化的UGC 3D人物生成。
今年3D賽道實屬火炎焱。
國內有VAST、AVAR AI等,初創公司多來自全球知名高校和科研機構;國外有AI教母李飛飛首次創業成立的空間智能公司World Labs,也著眼於3D生成世界,宣布長期目標是構建大世界模型(LWM)來感知、生成3D世界並與之互動。
鵝廠這波開源操作,無疑是把大夥兒玩3D模型的門檻又打下來了。
正如騰訊混元3D負責人郭春超所說:
3D生成技術今年已進入快速發展階段,3D AIGC作為新的生產力工具,能為復雜的傳統3D制作流程提效,可套用於遊戲、工業制造、社交娛樂等領域,未來可能會與機器人等領域結合,賦能空間智能。
官網地址:https://3d.hunyuan.tencent.com/