AIGC商業化新動向：FancyTech以「垂直模型」實作AIGC商業化

2024-08-30科技

近期，【機器之心】報道了中國創業公司FancyTech最新推出的垂直模型DeepVideo，該模型成功應對了視訊中商品精準還原與自然融合的挑戰，確保動態中商品不變形。

該公司透過提供標準化的商業視覺內容生成產品，不僅迅速擴大了市場份額，還在實際套用中較早地展示了垂直模型的優勢。環顧國內大模型創業圈，FancyTech 的商業化戰績是有目共睹的。但較少為人所知的是，這家誕生僅幾年的公司，憑借怎樣的垂直模型和技術優勢跑在了賽道前列。

FancyTech 釋出視訊垂直模型 DeepVideo，如何突破行業壁壘？

在自研面向商業影像 / 視訊的垂直模型過程中，FancyTech 將核心挑戰拆解開來：如何讓商品足夠還原且融入背景，特別是在生成視訊中，實作商品的運動可控且不形變。

【機器之心】進一步剖析其中的奧秘在於FancyTech 的垂直模型基於開源的底層演算法框架，疊加自有的數據標註重新訓練，僅需幾百張 GPU 持續訓練叠代即可取得好的生成效果。相比之下，「商品數據」和「訓練方式」這兩個因素對於最終的落地效果更為關鍵。

00:10

在積累了大量3D訓練數據的基礎上，FancyTech采用了空間智慧的理念指導2D內容的生成。在影像內容生成方面，團隊提出了「多模態特征器」以確保商品的還原，並透過特殊的數據采集保證商品與背景的自然融合。在視訊內容生成方面，團隊重新構建了視訊生成的底層鏈路，定向設計框架和進行數據工程，以商品為中心生成視訊。

此外，【機器之心】深入探討了FancyTech如何將「空間智慧」的研究思路套用於視覺生成模型的構建。與傳統生成模型不同，空間智慧透過分析大量傳感器數據，進行精確的標定，從而使模型能夠感知和理解現實世界。

FancyTech采用雷射雷達掃描代替傳統的攝影棚拍攝技術，積累了大量的高品質3D數據對，這些數據在模型訓練中與2D數據結合使用，以增強模型的現實世界理解能力。

在視覺內容生成中，光影效果的塑造是一個極具挑戰性的任務，FancyTech在每個環境中部署了可調節亮度和色溫的多盞燈，收集盡可能多的自然光影數據，以提高生成影像的空間層次感。

這種高強度的數據收集模擬了真實拍攝場景的燈光，使其更加符合電商場景的特點。結合高品質的 3D 數據積累，FancyTech 在演算法框架上進行了一系列創新，將空間演算法與影像、視訊演算法有機結合，讓模型更好地理解核心物體與環境的互動。

【機器之心】的報道還揭示了FancyTech在"強還原"和"超融合"背後的演算法創新。FancyTech 提出了一種自有的「多模態特征器」，在多種維度上提取商品特征，然後使用這些特征生成融入後的場景圖。

提取特征的工作可分為「全域特征」和「局部特征」，全域特征包括商品的輪廓、顏色等要素，使用 VAE 編碼器提取；局部特征包括各處商品細節，使用圖神經網路提取。圖神經網路的一大好處是可以提取商品中各關鍵像素的資訊以及關鍵像素間的關系，提高對於商品內部的細節還原。

商業化道路上，無論是通用模型還是垂直模型，FancyTech都展示了如何透過豐富的獨有數據和行業專知在國內外市場獲得認可，與國際合作夥伴如三星、LG和東南亞的Lazada電商平台等建立了合作關系；在美國，獲得了Kate Somerville和Solawave等本土品牌的青睞；在歐洲，贏得了LVMH創新大獎，並與歐洲客戶深入合作。

00:52

隨著技術的普及，現在幾乎每個人都能透過手機拍攝視訊、錄制音樂，並與全球分享他們的創作。這預示著一個新時代的到來——AIGC技術將使普通人輕松跨越專業門檻，將創意轉化為現實，推動各行各業的生產力飛躍，催生更多新興產業。AIGC技術帶來的時代紅利，從現在開始，真正走向普通人的生活。