当前位置: 华文世界 > 科技

推出智能链路提升模型训练效率,火山引擎发布AI视频模型训练新方案

2024-10-18科技

自今年年初Open AI发布第一款文生视频模型Sora后,接下来的时间里,国产视频生成大模型也迎来飞快增长。

今年4月,我国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。7月,智谱AI正式发布视频生成大模型「清影」,同月商汤科技也发布了首个「可控」人物视频生成大模型Vimi。

无独有偶,快手可灵AI、抖音即梦AI也纷纷上线,不断升级。

一方面,视频大模型生成的逼真场景和角色,给用户带来了沉浸式体验。另一方面,这也让推理算力消耗激增,再者,视频内容的复杂性和多样性,也使得模型训练和优化变得更加困难。

工欲善其事,必先利其器。

10月15日,在火山引擎的视频云技术大会上,火山引擎发布了其最新的大模型训练视频预处理方案,致力解决视频大模型训练成本、质量和性能等方面的技术挑战。

据介绍,对训练视频进行预处理,是保障大模型训练效果的重要前提,所带来的好处也有很多,如统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息。经过预处理后,模型能高效地学习视频中的特征和知识,从而提高训练效果和效率。

此次,借助英特尔(Intel)的CPU等资源,火山引擎发布了大模型训练视频预处理方案。依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

目前,该技术方案已经应用于豆包视频生成模型。

据Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中,采用了火山引擎的大模型训练视频预处理方案,充分利用大量潮汐资源,为模型训练提供了有力支撑。

火山引擎总裁谭待在活动致辞中表示,在AIGC、多模态等技术的共同推动下,用户体验在多个维度上经历着深刻转变。

「基于抖音业务实践和与行业客户共创,火山引擎视频云正积极探索AI大模型与视频技术的深度融合,在技术底座、处理链路和业务增长层面为企业寻找解法。」谭待说。

展望未来,在AI视频时代,人和AI的交互将变得的更加动态,也会变得更加频繁。一个智能的处理链路是保障交互体验的前提,也是行业发展的关键。从这一点看,火山引擎给整个大模型行业都开了一个好头。