瘋了！騰訊連夜放大招，蔡徐坤「復出」唱RAP，這AI讓你不再EMO

2024-03-29科技

哈嘍~，大家好，我是東哥，寶爸一枚，正努力探索AI，創富人生，目標幫助1000名誌同道合的朋友一起提前退休！

你們記不記得EMO？

就是前兩天阿裏剛放出來那個，透過音訊驅動圖片唱歌的模型，到現在還沒有開源使用，但已經有不少人透過這個噱頭，讓「親人復活了」

這不，以抄xi。呃~不對，以研發著稱的騰訊直接開源了全新大模型，鬼畜評論區快要坐不住了啊

來看看坤坤這段說唱：

00:10

不得不說啊，不論從肌肉運動還是肢體的協調上，效果都是相當驚艷的，這以後生成口播影片是不是就......

其實早在2月份時候，阿裏就公布出自己的圖生影片大模型EMO，當時的效果也是相當炸裂。

一張照片，一段音訊，就可以生成一段會說話或者唱歌的AI影片，表情，語速都可以一一對應。

還不知道的可以再來回顧一下：

01:02

時隔一個多月了，現在EMO的「開源」倉庫依舊「整潔如初」

不禁感慨這波開源屬實開了個寂寞，本來靠EMO賺足了噱頭的阿裏，這回真的要emo了

應了那句話，行動早，就是優勢。

根據騰訊放出來的模型來看，有三種合成模式

1、自我驅動

意思就是可以指定頭部姿勢，或者選擇預設的姿勢配置，來控制生成動畫中的頭部動作，使動畫效果更加自然和多樣化，比如坤坤RAP和下面這個：

00:10

2、臉部再現

這個意思就是，咱們提供一段影片，AI透過分析和參考影片中的面部表情和動作，實作在圖片上復刻，這個技術好

00:10

00:12

3、音訊驅動

透過提供一段音訊和一張頭像圖片，AI根據語音和節奏來控制人物的表情生成動畫

00:08

00:10

這場AI領域的較量中，TX明顯快一步，不虧是小馬哥啊

但整體看下來，效能應該相差不大，畢竟哪哪都是EMO的味道

目前該專案的模型權重已經開放下載，感興趣的夥伴趕緊去試試吧

老鐵們如果覺得內容對你有幫助，就給東哥點個「關註」吧，據我所知點「贊」的老鐵都好運纏身了

下載的地址我都整理好了，如果你懶得找可以找我領取