事件:北京时间2月16日凌晨,Open AI发布旗下首个文生视频模型Sora。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,对语言有深刻理解,能够准确领会用户的提示。
Open AI发布首个文生视频模型Sora。Sora是基于difussion扩散的transformer 模型,凭借其强大的通用视觉数据处理,可以生成跨越不同持续时间、纵横比和分辨率的图像视频,最多可以连续生成60秒(一分钟)的高清视频。Sora是Open AI在GPT-4及DALL-E等语言和图像模型的基础上进一步的创新突破,该模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。此外,该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景,能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。
训练采样灵活,打破此前扩散模型局限性。Sora采用的是DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。Sora还能够为现有图片赋予动态效果或延伸视频内容的长度。Sora的灵感来自于语言模型,参照LLM的文本标记方法,Sora采用了视觉补丁方法,即把用于训练的图片、视频压缩为多个patch,把patch作为token进行训练,而非在图像域上进行训练,因此无需对视频的大小、时长进行限定、裁剪,训练端不会接受到残缺数据。
跨时代文生视频模型,有望推动硬件需求进一步提升。Sora基于图片做长视频生成,再基于生成视频做extend,其所需token数量相较于文本及图片模型的推理,有望成数量级增长,我们判断Sora将刺激推理算力需求将持续上升。此外,推理端 token增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。
投资建议:建议关注 AI 大模型发展带来的产业链机遇
风险提示:需求不及预期、产能瓶颈的束缚、大陆厂商技术进步不及预期、中美贸易摩擦加剧、研报使用的信息更新不及时。
本文源自:券商研报精选