AIGC商业化新动向：FancyTech以「垂直模型」实现AIGC商业化

2024-08-30科技

近期，【机器之心】报道了中国创业公司FancyTech最新推出的垂直模型DeepVideo，该模型成功应对了视频中商品精准还原与自然融合的挑战，确保动态中商品不变形。

该公司通过提供标准化的商业视觉内容生成产品，不仅迅速扩大了市场份额，还在实际应用中较早地展示了垂直模型的优势。环顾国内大模型创业圈，FancyTech 的商业化战绩是有目共睹的。但较少为人所知的是，这家诞生仅几年的公司，凭借怎样的垂直模型和技术优势跑在了赛道前列。

FancyTech 发布视频垂直模型 DeepVideo，如何突破行业壁垒？

在自研面向商业图像 / 视频的垂直模型过程中，FancyTech 将核心挑战拆解开来：如何让商品足够还原且融入背景，特别是在生成视频中，实现商品的运动可控且不形变。

【机器之心】进一步剖析其中的奥秘在于FancyTech 的垂直模型基于开源的底层算法框架，叠加自有的数据标注重新训练，仅需几百张 GPU 持续训练迭代即可取得好的生成效果。相比之下，「商品数据」和「训练方式」这两个因素对于最终的落地效果更为关键。

00:10

在积累了大量3D训练数据的基础上，FancyTech采用了空间智能的理念指导2D内容的生成。在图像内容生成方面，团队提出了「多模态特征器」以确保商品的还原，并通过特殊的数据采集保证商品与背景的自然融合。在视频内容生成方面，团队重新构建了视频生成的底层链路，定向设计框架和进行数据工程，以商品为中心生成视频。

此外，【机器之心】深入探讨了FancyTech如何将「空间智能」的研究思路应用于视觉生成模型的构建。与传统生成模型不同，空间智能通过分析大量传感器数据，进行精确的标定，从而使模型能够感知和理解现实世界。

FancyTech采用激光雷达扫描代替传统的摄影棚拍摄技术，积累了大量的高质量3D数据对，这些数据在模型训练中与2D数据结合使用，以增强模型的现实世界理解能力。

在视觉内容生成中，光影效果的塑造是一个极具挑战性的任务，FancyTech在每个环境中部署了可调节亮度和色温的多盏灯，收集尽可能多的自然光影数据，以提高生成图像的空间层次感。

这种高强度的数据收集模拟了真实拍摄场景的灯光，使其更加符合电商场景的特点。结合高质量的 3D 数据积累，FancyTech 在算法框架上进行了一系列创新，将空间算法与图像、视频算法有机结合，让模型更好地理解核心物体与环境的交互。

【机器之心】的报道还揭示了FancyTech在"强还原"和"超融合"背后的算法创新。FancyTech 提出了一种自有的「多模态特征器」，在多种维度上提取商品特征，然后使用这些特征生成融入后的场景图。

提取特征的工作可分为「全局特征」和「局部特征」，全局特征包括商品的轮廓、颜色等要素，使用 VAE 编码器提取；局部特征包括各处商品细节，使用图神经网络提取。图神经网络的一大好处是可以提取商品中各关键像素的信息以及关键像素间的关系，提高对于商品内部的细节还原。

商业化道路上，无论是通用模型还是垂直模型，FancyTech都展示了如何通过丰富的独有数据和行业专知在国内外市场获得认可，与国际合作伙伴如三星、LG和东南亚的Lazada电商平台等建立了合作关系；在美国，获得了Kate Somerville和Solawave等本土品牌的青睐；在欧洲，赢得了LVMH创新大奖，并与欧洲客户深入合作。

00:52

随着技术的普及，现在几乎每个人都能通过手机拍摄视频、录制音乐，并与全球分享他们的创作。这预示着一个新时代的到来——AIGC技术将使普通人轻松跨越专业门槛，将创意转化为现实，推动各行各业的生产力飞跃，催生更多新兴产业。AIGC技术带来的时代红利，从现在开始，真正走向普通人的生活。