Meta 公司釋出 Imagine Yourself AI 模型

2024-08-23科技

IT之家 8 月 23 日訊息，從社交媒體到虛擬現實，個人化影像生成因其在各種套用中的潛力而日益受到關註。傳統方法通常需要針對每位使用者進行大量調整，從而限制了效率和可延伸性，為此 Meta 公司創新提出了「Imagine Yourself」 AI 模型。

傳統個人化影像生成方法挑戰

目前的個人化影像生成方法通常依賴於為每個使用者調整模型，這種方法效率低下，而且缺乏通用性。雖然較新的方法試圖在不進行調整的情況下實作個人化，但它們往往過度擬合，導致復制貼上效應。

Imagine Yourself 創新

Imagine Yourself 模型不需要針對特定使用者微調，透過單一模式能夠滿足不同使用者的需求。

該模型解決了現有方法的不足之處，如傾向於毫無變化地復制參考影像，從而為更通用、更方便使用者的影像生成流程鋪平了道路。

Imagine Yourself 在保存身份、視覺質素和及時對齊等關鍵領域表現出色，大大優於之前的模型。

該模型的主要組成部份包括：

生成合成配對數據以鼓勵多樣性；

整合了三個文本編碼器和一個可訓練視覺編碼器的完全並列註意力架構；

以及一個從粗到細的多階段微調過程

這些創新技術使該模型能夠生成高質素、多樣化的影像，同時保持強大的身份保護和文本對齊功能。

Imagine Yourself 使用可訓練的 CLIP 修補程式編碼器提取身份資訊，並透過並列交叉註意模組將其與文本提示整合在一起，準確保存身份資訊並對復雜的提示做出反應。

該模型使用低階介面卡（LoRA）僅對架構的特定部份進行微調，從而保持較高的視覺質素。

Imagine Yourself 的一個突出功能是生成合成配對（SynPairs）數據。透過建立包含表情、姿勢和光照變化的高質素配對數據，該模型可以更有效地學習並產生多樣化的輸出結果。

值得註意的是，在處理復雜的提示詞方面，與最先進的模型相比，它在文本對齊方面實作了 +27.8% 的顯著改進。

研究人員使用一組 51 種不同身份和 65 個提示對 Imagine Yourself 進行了定量評估，生成了 3315 幅影像供人類評估。

該模型與最先進的（SOTA）adapter-based 模型和 control-based 模型進行了比對，重點關註視覺吸重力、身份保持和提示對齊等指標。

人工註釋根據身份相似性、及時對齊和視覺吸重力對生成的影像進行評分。與 adapter-based 模型相比，Imagine Yourself 在提示對齊方面有了 45.1% 的顯著提高，與基於控制的模型相比有了 30.8% 的提高，再次證明了它的優越性。

Imagine Yourself 模型是個人化影像生成領域的一大進步。該模型無需針對特定物件進行調整，並引入了合成配對數據生成和並列註意力架構等創新元件，從而解決了以往方法所面臨的關鍵挑戰。

IT之家附上參考地址