Meta 研發新方法：整合語言和擴散 AI 模型

2024-08-27科技

IT之家 8 月 24 日訊息，Meta AI 公司最新推出了 Transfusion 新方法， 可以結合語言模型和影像生成模型，將其整合到統一的 AI 系統中。

IT之家援引團隊介紹，Transfusion 結合了語言模型在處理文本等離散數據方面的優勢，以及擴散模型在生成影像等連續數據方面的能力。

Meta 解釋說，目前的影像生成系統通常使用預先訓練好的文本編碼器來處理輸入的提示詞，然後將其與單獨的擴散模型結合起來生成影像。

許多多模態語言模型的工作原理與此類似，它們將預先訓練好的文本模型與用於其他模態的專用編碼器連線起來。

不過 Transfusion 采用單一、統一的 Transformer 架構，適用於所有模式，對文本和影像數據進行端到端訓練。文本和影像使用不同的損失函式：文本使用下一個標記預測，影像使用擴散。

為了同時處理文本和影像，影像被轉換成影像片段序列。這樣，模型就能在一個序列中同時處理文本標記和影像片段，特殊的註意力掩碼（attention mask）還能讓模型捕捉影像內部的關系。

有別於 Meta 現有的 Chameleon（將影像轉換成離散的標記，然後用處理文本的方式處理）等方法，Transfusion 保留了影像的連續表示法，避免了量化造成的資訊損失。

實驗還表明，與同類方法相比，"融合" 的擴充套件效率更高。在影像生成方面，它取得了與專門模型相似的結果，但計算量卻大大減少，令人驚訝的是，整合影像數據還提高了文本處理能力。

研究人員在 2 萬億個文本和影像標記上訓練了一個 70 億參數的模型。該模型在影像生成方面取得了與 DALL-E 2 等成熟系統相似的結果，同時還能處理文本。

IT之家附上參考地址