当前位置: 华文世界 > 科技

视频神器Sora,杨立昆透露技术细节,参数量仅30亿

2024-02-18科技

在今年二月十六日, OpenAI推出了它的第一个文本生成式大模式—— Sora,这一消息在业界引起了轩然大波。Sora能够通过文字线索自动合成出高品质的影像,展现出令人惊叹的画面与逻辑推理功能。Sora的具体技术机制及具体内容并没有对外公布,但是已经有不少人工智能方面的权威人士对此做出过点评,尤其是 Meta的人工智能研究负责人杨立昆,在公布 Sora的一些基本文献以及大量的参量表后,大家对 Sora的技术能力有了一个直观的认识。

Sora的推出引发了极大的兴趣与热议,除了 OpenAI首席执行官萨姆·阿尔特曼与共同创始人埃隆·马斯克之外,360公司的周鸿祎,出门问问的李志飞,前阿里的副总贾扬清,以及一些影视、营销行业的从业者,也都对这种新的东西产生了浓厚的兴趣,甚至有些行业的从业者也对此产生了担忧。此外, OpenAI网站还发布了由 Sora制作的48段录像,内容涉及不同的情景与话题,例如海上单车大赛,一名男子向大猫王鞠躬,一条鲨鱼跃出海面将海滩上的人们吓坏了等等,令观众们对 Sora的创意与想象赞叹不已。

Sora的具体工作机制和具体内容还没有公布,不过已经有不少 AI界的权威人士对此做出了点评,而这当中最受关注的莫过于 Meta的人工智能研究人员杨立昆,他将纽约大学的助教谢赛宁的微博,以及 Sora的基本文献以及引用次数都给了他。杨立昆表示,谢赛宁与其前任伯克利大学学生 William Peebles共同撰写了一篇关于「传播转换」的文章,后者目前也是 OpenAI的一名工程师,而后者则是 Sora的基石。该文章因为「不够新颖」而被一家电脑视觉学会拒绝。杨立昆还特别提到了,第一作者谢赛宁曾经是他的同僚,二作是他曾经的弟子,第三作是他本人,第四作者则是他的前导师,伯克利分校的崔佛·达雷尔。

在此基础上,本文提出了一种新的算法——扩散转换器。其基本思路是将物体的产生分为两个步骤:一是对物体进行高斯白噪音的压缩,二是将其逐渐扩展到物体或视频中。传播转换器不仅能充分发挥 Transformer自身的优势,还能有效地捕获长距离相关的影像/视频,还能充分发挥传播传播的随机特性,提高产生的多样性与稳定性。该算法已成功地应用于多种图片、视频的自动合成,其性能优于以往的人工合成算法。

谢赛宁在推特上猜测, Sora采用的是一种传播式 Transformer体系结构,但是它也有谷歌最新推出的「NaViT」,它把「Transformer」用于时空两个维度。谢赛宁也对 Sora中的参数数目进行了估计,主要是基于图像的品质和运算能力,估计 Sora的参数数目在30亿左右,与GPT-3最小值(1750亿)和GPT-4 (1000万亿)之间相差甚远。谢赛宁说这个尺寸很合适,不会太大,也不会太小,这样就能在最短的时间内,达到最好的效果。

Sora的推出对于人工智能来说是一个重要的突破,显示了文字视频的强大潜能与未来,同时也让大家对人工智能产生了惊奇与思索。虽然目前 Sora的具体实现方法还没有对外发布,但是通过大量的数据和评估,我们可以更加清晰地认识到 Sora的优势,同时也更加期待它的发展。