蘋果推出開源AI大模型MGIE，能根據自然語言指令進行多種影像編輯

2024-02-09科技

日前，蘋果推出一款開源人工智能模型 MGIE，能夠基於多模態大語言模型（multimodal large language models，MLLM）來解釋使用者命令，並處理各種編輯場景的像素級操作，比如，全域照片最佳化、本地編輯、Photoshop 風格的修改等。

圖丨把小屋變成豪宅（來源：MGIE）

據悉，該模型由蘋果和美國加利福尼亞大學聖芭芭拉分校的研究團隊合作完成。相關論文以【透過多模態大語言模型指導基於指令的影像編輯】（Guiding Instruction-based Image Editing via Multimodal Large Language Models）為題在 arXiv 上發表 [1]。

圖丨相關論文（來源：arXiv）

作者包括加利福尼亞大學聖芭芭拉分校研究助理 Tsu-Jui Fu、博士後 Wenze Hu和William Yang Wang 教授，以及蘋果機器學習研究員 Xianzhi Du、Yinfei Yang 和 Zhe Gan。

如上所說，MGIE 能夠對影像進行全方位編輯，包括照片全域最佳化、本地編輯、Photoshop 風格修改和依托於指令的編輯等功能。

具體來說：

其一，能夠從根本上提高目標影像的質素（清晰度、亮度等），並且可以加入繪畫、卡通等藝術效果。

其二，既能夠對目標影像中的目標區域或物件（服飾、人臉、眼睛等）進行修改，又能夠改變這些區域或物件的性質，比如顏色、樣式、大小等。

其三，能夠實作包括剪裁、旋轉等在內的各種常見 Photoshop 風格的編輯，並且套用更改背景、添加或刪除物件，以及混合物件等更高級的編輯。

其四，能夠基於 MLLM 生成簡明易懂的指令，以有效指導模型進行編輯，從而全面提高使用者體驗。

對於使用者而言，由於該模型的設計非常易用、靈活客製，因此使用者只需要提供自然語言指令，就能夠實作對影像的編輯。

在此基礎上，使用者也可以向該模型提供反饋，以更好地完善編輯。此外，該模型還能夠與需要影像編輯功能的其他應用程式或平台整合。

那麽，具體到實際場景，使用者又是如何使用 MGIE 的呢？

面對下圖中的左圖所顯示的披薩，使用者可以對 MGIE 輸入「讓它看起來更健康」的指令，後者便會使用常識推理，給披薩添加西紅柿、香草等蔬菜配料。

（來源：arXiv）

而面對下圖中的左圖所顯示的多余的女性人物主體，使用者可以透過 Photoshop 風格的修改，要求該模型將人物從照片背景中移除，並將影像焦點轉移到男性人物的面部表情上。

（來源：arXiv）

在掌握使用 MGIE 的方法之後，我們不可避免地會好奇該模型背後的運作邏輯。

據了解，它主要基於 MLLM 的理念，後者作為效能強大的人工智能模型，在跨模態理解和視覺感知響應生成方面表現優異，但尚未廣泛地在影像編輯任務中獲得套用。

MGIE 則透過以下兩種方式，成功地將 MLLM 整合到影像編輯的過程中。

第一步，利用 MLLM 從使用者輸入的指令中總結出盡可能簡單的說明，以更好地指導接下來的影像編輯。比如，如果使用者的給定輸入是「讓草地更綠」，那麽，接下來該模型就會生成「將草地區域的飽和度增加 20%」的指令。

第二步，利用 MLLM 提高模型對影像的想象力，這有利於觸達編輯的根本，以便完成對目標影像操作的指導。

總的來說，該模型采用了一種全新的端到端的訓練方案，可以實作對指令推導、視覺想象和影像編輯模組的聯合最佳化。

據悉，目前 MGIE 已經在 GitHub 上線，相應的數據程式碼和預訓練模型均已實作開源。不僅如此，還在機器學習專案共享與合作平台 Hugging Face Spaces 上發表了一個演示，方便使用者線上試用。

綜上可以看出，MGIE 不但是一項基礎研究成果，更是在各種影像場景下都能適用的實用工具。

也就是說，它不僅可以幫助使用者基於個人或專業目的進行影像建立、修改和最佳化，還能讓使用者透過影像表達自己的想法和情感，進而激發他們的創造力。

正如該論文中提到的那樣，「MGIE 不是簡單但模糊的指導，而是得出明確的視覺感知意圖，並生成合理的影像編輯。我們從各個編輯方面出發進行了廣泛的研究，並證明 MGIE 能夠在保持競爭效率的同時有效提高效能。我們還相信，由 MLLM 引導的框架，可以為未來的視覺和語言研究做出貢獻」。

基於此，可以預見的是，這種多模態的人工智能系統，在不遠的未來有望成為人們不可或缺的創意夥伴。

參考資料：

1.T., Fu, W., Hu, X., Du. et al. Guiding Instruction-based Image Editing via Multimodal Large Language Models. arXiv :2309.17102v2（2024）.https://arxiv.org/abs/2309.17102

https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/

https://www.macrumors.com/2024/02/07/apple-ai-model-edits-images-natural-language/

https://www.theverge.com/2024/2/7/24065125/apple-generative-ai-image-editing-mgie-open-source-model

https://github.com/apple/ml-mgie

排版：劉雅坤