推出智能链路提升模型训练效率，火山引擎发布AI视频模型训练新方案

2024-10-18科技

自今年年初Open AI发布第一款文生视频模型Sora后，接下来的时间里，国产视频生成大模型也迎来飞快增长。

今年4月，我国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。7月，智谱AI正式发布视频生成大模型「清影」，同月商汤科技也发布了首个「可控」人物视频生成大模型Vimi。

无独有偶，快手可灵AI、抖音即梦AI也纷纷上线，不断升级。

一方面，视频大模型生成的逼真场景和角色，给用户带来了沉浸式体验。另一方面，这也让推理算力消耗激增，再者，视频内容的复杂性和多样性，也使得模型训练和优化变得更加困难。

工欲善其事，必先利其器。

10月15日，在火山引擎的视频云技术大会上，火山引擎发布了其最新的大模型训练视频预处理方案，致力解决视频大模型训练成本、质量和性能等方面的技术挑战。

据介绍，对训练视频进行预处理，是保障大模型训练效果的重要前提，所带来的好处也有很多，如统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息。经过预处理后，模型能高效地学习视频中的特征和知识，从而提高训练效果和效率。

此次，借助英特尔（Intel）的CPU等资源，火山引擎发布了大模型训练视频预处理方案。依托于自研的多媒体处理框架BMF，能有效应对模型训练的算力成本挑战。此外，该方案还在算法和工程方面进行了调优，可以对海量视频数据进行高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。

目前，该技术方案已经应用于豆包视频生成模型。

据Bytedance Research负责人李航介绍，豆包视频生成模型PixelDance在训练过程中，采用了火山引擎的大模型训练视频预处理方案，充分利用大量潮汐资源，为模型训练提供了有力支撑。

火山引擎总裁谭待在活动致辞中表示，在AIGC、多模态等技术的共同推动下，用户体验在多个维度上经历着深刻转变。

「基于抖音业务实践和与行业客户共创，火山引擎视频云正积极探索AI大模型与视频技术的深度融合，在技术底座、处理链路和业务增长层面为企业寻找解法。」谭待说。

展望未来，在AI视频时代，人和AI的交互将变得的更加动态，也会变得更加频繁。一个智能的处理链路是保障交互体验的前提，也是行业发展的关键。从这一点看，火山引擎给整个大模型行业都开了一个好头。