當前位置: 華文世界 > 科技

阿裏通義實驗室薄列峰:從兵馬俑跳「科目三」到照片唱歌,四大框架讓AI生成的人物活起來丨GenAICon 2024

2024-05-07科技

智東西
作者 | GenAICon 2024

智東西5月6日報道,2024中國生成式AI大會於4月18-19日在北京舉行,在大會首日的主會場開幕式上,阿裏巴巴通義實驗室XR團隊負責人薄列峰博士以【人物視訊生成新範式】為題發表演講。

隨著Sora等文生視訊模型掀起熱潮,很多人都在探討文生視訊模型能不能算作世界模型。對此,薄列峰認為, 文生視訊模型與世界模型的機制存在差異,視訊是一個觀察者角色,並不能真正改變世界,文字與物理世界描述之間也具有不對應關系

人物視訊生成模型 是阿裏通義實驗室XR團隊的一個研究重點。薄列峰透過 人物動作、人物換裝、人物替身、人物唱演 4個框架來解讀人物視訊生成新範式。基於這些框架的套用,正 逐步落地通義千問APP

人物動作視訊生成框架 Animate Anyone 可基於單張圖和動作序列,輸出穩定、可控的人物動作視訊;人物換裝視訊生成框架 Outfit Anyone 是基於服飾圖和人物形象;人物視訊角色替換框架 Motionshop 采用 Video2Motion ,基於視訊人物動作驅動3D數位人;人物唱演視訊生成框架 Emote Portrait Alive 能夠基於單張圖和音訊,輸出準確、生動的人物唱演視訊。

以下為薄列峰的演講實錄:

我的分享前半部份講行業趨勢以及我在多模態、文生文等方向的思考;後半部份分享我們在文生視訊生成方向的工作。可以非常自信地說,我們在整個業界具備領先性,整個工作也有很強的特色。

一、文生視訊模型基於統計關系,不是世界模型

首先,文生視訊高速發展,大家講發展基石的時候都會講到數據、機器、人才。什麽是多模態?什麽是視訊?文生視訊這個領域基礎又是什麽?目前思考得還比較少。

先回顧一下行程,大家可以看到Midjourney在文生圖方向的突破;OpenAI借助非常強的理解大模型、能夠對影像實作精標的能力,在文生圖上做出自己有特色的工作和突破;創業公司像Pika、Runway也在做自己的工作,分別從不同的路徑和方向來演進;包括谷歌、大的創業公司,過去一年有很多文生視訊方向的研究工作。

這些工作從研究的角度有一定數量的數據集,做一些方向的突破可能沒有那麽難。OpenAI相當於把這個事情做到了極致,在現在的時間節點,整個Sora展示出非常好的效果。

文生視訊是不是世界模型?它和世界模型的機制還是有所差異的。

首先 視訊是一個觀察者的角色 ,我們有一些攝影機在記錄這個世界,但它 不是真的去改變這個世界 。如果說我需要做一些世界模型,類似我需要一些具身智慧,當然這也是大家提出的一些新名詞,具身智慧是在仿照我們生物智慧。生物智慧不光有思考,同樣也有實體,如果看實體的部份,具身智慧現階段還是遠遠落後的,因為人體具備非常強的靈活性和低碳的消耗,不是今天物理機器所具備的,這是一個差異點。

另一點,如果看文生視訊, 視訊的存在並不依賴於文字是否存在 。文字出現以前,地球上的生物就可以看到這個物理世界。文字是我們引入去描述人自身的思想,隨著人類前進演化了很多代,是我們引入的一個工具,實際可能跟今天的程式語言也是類似的。我們引入一個工具來描述這個物理世界,它具有相當的描述能力,但是它和物理世界之間也不對應,也就是說它有簡化、有抽象、有歸納等。

整個文生視訊做的工作是什麽?有一個視訊空間,還有一個文字空間。我們在文字空間給每個視訊打上標或者找到一個對應。整個關系是一個統計的依賴關系,透過這樣的關系和暴力的關聯,再加上大數據,展現出了一定的文生視訊能力,但是 不代表這是我們物理世界真實運作的規律

如果看文生文、文生視訊,它們並不影響我們的物理世界, 如果要影響物理世界,它還是需要達到生物智慧所具備的特點

在這裏也分享我對AGI的理解。透過文字我們是否能實作AGI?首先文字的能力於生物智慧而言,不是完整的。 非完整的AI智慧是否達到人類智慧所具備的能力?現在看還是有相當的距離。 如果今天讓大模型去造一輛汽車,造一台電視可以嗎?以我的觀點來看,還是比較遙遠的。

二、做特色的人物視訊生成,能換裝唱演、角色富有表現力

通義實驗室在視訊生成方向有一些探索,我們也有完整的視訊生成矩陣性的產品和研究。

回到今天分享主題的核心—— 人物視訊生成 ,當大家討論這個問題的時候,第一個問題是,為什麽不做一個通用的視訊生成就完了,為什麽還要做人物視訊生成?

視訊生成和人物視訊生成有共性,需要 高品質的畫質 ,包括 整個運動要符合物理規律 。如果看人的組成,包括人臉、人手、人的頭發、人的服飾都具有相當的 唯一性 ,同時展示出了 非常精細的顆粒度 。人物的特點、聲音,這些還是人的 感知部份 ,我們都還沒有講到人的 實體部份 ,包括人是由物質組成的等,不同的部份是不同的物質,這些模擬可能是另一個層面,包括我們是否能制造出一種材料跟生物智慧是類似的等等,這部份不是我們覆蓋的主題。

整體來看,它(人物視訊生成)是相當有特色的,會導致在生成中有很多特性,包括 控制是多樣的 ,比如可以用聲音來做控制,可以用人體的一些表達來做控制,可以用文本來做控制。 控制具備豐富性 ,同時它生成的人的 整體表現力需要非常豐富 ,如果生成的人表現力非常呆板,很難滿足今天套用的需求。另外, 生成的顆粒度 、數位資產和人物運動的分離等,都是極具特色的部份。

我們的工作包括 人物動作 人物換裝 人物替身 人物唱演 等。接下來分享每個模組各自的工作。

三、人物動作視訊生成框架Animate Anyone:讓兵馬俑跳【科目三】

第一部份,我們在2023年11月釋出人物動作視訊生成框架 Animate Anyone ,在人物視訊生成方向的釋出早於Sora幾個月,當我們把這個結果釋出出來之後,引發了非常強烈的關註,主要是達到的視覺效果超越了之前的結果,可以說是 一個數量級的超越

整個方案的框架有幾個特色:

第一,有一張參考圖,整個生成過程會對參考圖做高度的保真 。大家如果在生成的時候看視訊的細節,可能會發現,隨著時間的推移,整個像素的物理合理性可能不太對。我們有機制,在融入的過程中,不光有CLIP的特征,還有視覺特征的融入,可以把更精確的資訊編碼進來,這是一個特點。

第二個特點,我們用骨骼訓練控制人物的動作 。大家如果看整個人體的模擬,特別是整個人體的關節,每個關節點有它的自由度,整體上骨骼與人體也是非常匹配的表達。

第三,引入時序模組,保證時序上的一致性 。我們和Sora的效果對比,視訊效果比Sora的方法有一個非常明顯的提升。

我們也把技術產品化,部署到通義APP,歡迎大家下載體驗。

我們的舞蹈生成獲得了相當多的關註,整個視訊內容播放達到了非常高的數位。畫面中的舞蹈,包括真人、卡通形象(都可以)來跳【科目三】。

當看產品演進的時候,我們發現一個非常有意思的事情,真人來跳舞這件事是我們自己可以去實作的能力,雖然對於每個人而言難度各有不同,舞蹈跳得比較好的能跳出比較好的【科目三】,舞蹈跳得不好也能跳出【科目三】的樣子。但是對於一些其它類人的形象,比如兵馬俑,我們不太可能去讓它跳【科目三】。

如果過去要讓一個兵馬俑跳【科目三】,我們要走的流程是什麽?(以前)我們要做一個三維模型,人為設計它的動作,整個成本流程非常高。我們現在 只要輸入一張照片,兵馬俑就可以跳【科目三】。畫一幅畫,給自己喜歡的寵物拍一張照片,輸入喜歡的各種二次元形象,它都可以來跳創作者喜歡的舞蹈

Animate Anyone賦予創作者相當大的靈活度,特別在之前很難創作出這樣動作視訊的領域,給大家提供了一個工具。

新的功能也在開發中,包括 任意上傳一段視訊可以來提取骨骼序列,然後把骨骼序列傳遞的動作資訊轉移到這張照片上面,生成一段舞蹈 。這會再次釋放大家動作視訊創作方面的潛力,甚至一些有難度的類人形象,我們能夠透過手繪骨骼點,讓它也跳起來舞蹈。我們把手繪的骨骼點和自身定義的骨骼點做一個匹配,來完成這樣一個工作。

Animate Anyone釋出的時候,四個視訊在(社交平台)Twitter上 總播放量破億 ,還有大量的自發報道。

四、人物換裝視訊生成框架Outfit Anyone:一鍵為模特換裝

第二部份,人物換裝視訊生成框架 Outfit Anyone 。在一個文明社會,每個人都有穿著服飾的需求,對美觀度有極高的需求。我們打造了一個框架,可以給定一個服飾,然後讓這個服飾穿到自己或者模特的身上,具備細節可控、身材可調、全身穿搭甚至多層服飾的疊穿等特征,面臨非常細節問題的處理。

當我們真正要滿足大家需求的時候,服飾的 一致性 非常重要,疊穿怎麽和拍得高品質照片達到一樣的畫質、精度,相當有挑戰。

在一個模特換裝套用中,將滑鼠點選、上移、下移,點選試穿,就會讓模特試穿衣服。我給定一些特別的材質,比如香蕉(影像)等,我們也能把它當衣服一樣穿到身上來。整個模型在嘗試把各種各樣的布料或者類似布料的東西上身,為創意提供了一個路徑。

當然我們也可以把Outfit Anyone和Animate Anyone結合,去生成一段走秀視訊等。相關作品獲得了相當的關註,在Hugging Face上榜,關註度非常高。

五、人物視訊角色替換框架Motionshop:生成3D模型動作視訊

人物視訊角色替換框架 Motionshop ,給定一個視訊,提取它的骨骼,同時把骨骼和三維模型做繫結,生成三維模型的動作視訊,然後還原在原視訊中。這樣的視訊和Animate Anyone的區別是,3D資產(包括3D IP)也是相當大的領域,特別在遊戲和影視,現在的Motionshop方案支持 多視 角的方案。

Motionshop支持 多人替換 ,這樣的視訊替換成二次元的角色,後面的視訊背景相當真實,前面的人物是虛擬人物,包括實際幹活兒的視訊。這裏也產生了一些對機器人能力的思考。

在整個方案中,要讓整個視訊看起來非常真實,除了大模型的能力,我們還運用了 渲染 的能力,包括光線追蹤,會從原視訊估計光照等,這樣讓整個視訊看起來非常一致,沒有違和感。

把機器人帶到對話場景中 ,也是非常有意思的一個套用。整個置換會在場景中有非常好的體現,超越了目前一些類似的方法所能做到的能力。

六、人物唱演視訊生成框架Emote Portrait Alive:讓照片開口唱歌

年後我們沿著對人物視訊生成獨立的思考,不斷地向前探索,最新的工作是人物唱演視訊生成框架 Emote Portrait Alive 。給定一張照片,可以讓這個人來唱歌、講話(這項功能已於近期上線通義APP)。當然了,四五年前大家都在研發這樣的能力,對於人物視訊生成而言, 表現力 是極度重要的,如果今天達到一個類人的表現力,在我來看是很難實作的。

我們要達到專業級,這才是真正大家使用的內容生成。很多生成的視訊畫質是OK的,但是大家有沒有思考這樣的問題,比如說 文生圖、生成的視訊,你是這個視訊的消費者嗎?你會看嗎?當然模型可能會生成這個世界上不存在的物種,這是很有意思的,但你會長期去消費這樣的內容嗎?

我覺得在做AIGC內容生成之前,不管是基礎研究還是套用思考,大家都在高速叠代,每個人都有自己的思考和對這個問題的答案。

在我們生成的過程中,基於這樣一個包括動作、唱歌(嘴型)、聲音表演的生成,我們可以去打造一個非常有吸重力的甚至可以去做演藝的形象,甚至可以做一個虛擬的明星。

以上是薄列峰演講內容的完整整理。