视频神器Sora，杨立昆透露技术细节，参数量仅30亿

2024-02-18科技

在今年二月十六日， OpenAI推出了它的第一个文本生成式大模式—— Sora，这一消息在业界引起了轩然大波。Sora能够通过文字线索自动合成出高品质的影像，展现出令人惊叹的画面与逻辑推理功能。Sora的具体技术机制及具体内容并没有对外公布，但是已经有不少人工智能方面的权威人士对此做出过点评，尤其是 Meta的人工智能研究负责人杨立昆，在公布 Sora的一些基本文献以及大量的参量表后，大家对 Sora的技术能力有了一个直观的认识。

Sora的推出引发了极大的兴趣与热议，除了 OpenAI首席执行官萨姆·阿尔特曼与共同创始人埃隆·马斯克之外，360公司的周鸿祎，出门问问的李志飞，前阿里的副总贾扬清，以及一些影视、营销行业的从业者，也都对这种新的东西产生了浓厚的兴趣，甚至有些行业的从业者也对此产生了担忧。此外， OpenAI网站还发布了由 Sora制作的48段录像，内容涉及不同的情景与话题，例如海上单车大赛，一名男子向大猫王鞠躬，一条鲨鱼跃出海面将海滩上的人们吓坏了等等，令观众们对 Sora的创意与想象赞叹不已。

Sora的具体工作机制和具体内容还没有公布，不过已经有不少 AI界的权威人士对此做出了点评，而这当中最受关注的莫过于 Meta的人工智能研究人员杨立昆，他将纽约大学的助教谢赛宁的微博，以及 Sora的基本文献以及引用次数都给了他。杨立昆表示，谢赛宁与其前任伯克利大学学生 William Peebles共同撰写了一篇关于「传播转换」的文章，后者目前也是 OpenAI的一名工程师，而后者则是 Sora的基石。该文章因为「不够新颖」而被一家电脑视觉学会拒绝。杨立昆还特别提到了，第一作者谢赛宁曾经是他的同僚，二作是他曾经的弟子，第三作是他本人，第四作者则是他的前导师，伯克利分校的崔佛·达雷尔。

在此基础上，本文提出了一种新的算法——扩散转换器。其基本思路是将物体的产生分为两个步骤：一是对物体进行高斯白噪音的压缩，二是将其逐渐扩展到物体或视频中。传播转换器不仅能充分发挥 Transformer自身的优势，还能有效地捕获长距离相关的影像/视频，还能充分发挥传播传播的随机特性，提高产生的多样性与稳定性。该算法已成功地应用于多种图片、视频的自动合成，其性能优于以往的人工合成算法。

谢赛宁在推特上猜测， Sora采用的是一种传播式 Transformer体系结构，但是它也有谷歌最新推出的「NaViT」，它把「Transformer」用于时空两个维度。谢赛宁也对 Sora中的参数数目进行了估计，主要是基于图像的品质和运算能力，估计 Sora的参数数目在30亿左右，与GPT-3最小值（1750亿）和GPT-4 （1000万亿）之间相差甚远。谢赛宁说这个尺寸很合适，不会太大，也不会太小，这样就能在最短的时间内，达到最好的效果。

Sora的推出对于人工智能来说是一个重要的突破，显示了文字视频的强大潜能与未来，同时也让大家对人工智能产生了惊奇与思索。虽然目前 Sora的具体实现方法还没有对外发布，但是通过大量的数据和评估，我们可以更加清晰地认识到 Sora的优势，同时也更加期待它的发展。