疯了！腾讯连夜放大招，蔡徐坤「复出」唱RAP，这AI让你不再EMO

2024-03-29科技

哈喽~，大家好，我是东哥，宝爸一枚，正努力探索AI，创富人生，目标帮助1000名志同道合的朋友一起提前退休！

你们记不记得EMO？

就是前两天阿里刚放出来那个，通过音频驱动图片唱歌的模型，到现在还没有开源使用，但已经有不少人通过这个噱头，让「亲人复活了」

这不，以抄xi。呃~不对，以研发著称的腾讯直接开源了全新大模型，鬼畜评论区快要坐不住了啊

来看看坤坤这段说唱：

00:10

不得不说啊，不论从肌肉运动还是肢体的协调上，效果都是相当惊艳的，这以后生成口播视频是不是就......

其实早在2月份时候，阿里就公布出自己的图生视频大模型EMO，当时的效果也是相当炸裂。

一张照片，一段音频，就可以生成一段会说话或者唱歌的AI视频，表情，语速都可以一一对应。

还不知道的可以再来回顾一下：

01:02

时隔一个多月了，现在EMO的「开源」仓库依旧「整洁如初」

不禁感慨这波开源属实开了个寂寞，本来靠EMO赚足了噱头的阿里，这回真的要emo了

应了那句话，行动早，就是优势。

根据腾讯放出来的模型来看，有三种合成模式

1、自我驱动

意思就是可以指定头部姿势，或者选择预设的姿势配置，来控制生成动画中的头部动作，使动画效果更加自然和多样化，比如坤坤RAP和下面这个：

00:10

2、脸部再现

这个意思就是，咱们提供一段视频，AI通过分析和参考视频中的面部表情和动作，实现在图片上复刻，这个技术好

00:10

00:12

3、音频驱动

通过提供一段音频和一张头像图片，AI根据语音和节奏来控制人物的表情生成动画

00:08

00:10

这场AI领域的较量中，TX明显快一步，不亏是小马哥啊

但整体看下来，性能应该相差不大，毕竟哪哪都是EMO的味道

目前该项目的模型权重已经开放下载，感兴趣的伙伴赶紧去试试吧

老铁们如果觉得内容对你有帮助，就给东哥点个「关注」吧，据我所知点「赞」的老铁都好运缠身了

下载的地址我都整理好了，如果你懒得找可以找我领取