多模態AI：概念、用例、優勢、挑戰及發展未來

2024-07-19科技

譯者：晶顏

多模態AI的套用範圍正在不斷擴大，那麽究竟什麽是多模態AI?它又是如何執行的?

生成式AI在短短幾年內取得了長足的進步，從基本的文本響應發展到復雜的散文。隨著多模態AI(Multi-modal
AI)的發展，這項技術的界限正在進一步擴大。如今，多模態AI正在涉足從醫療保健到機器人等多個行業。谷歌、OpenAI、Anthropic和Meta等科技巨頭也紛紛推出了自己的多模態AI模型。

什麽是多模態AI?

多模態AI是指同時利用各種類別(或模式)數據形成見解、做出預測和生成內容的AI系統。

多模態模型能夠處理文本、影像、影片、語音等資訊，以完成一系列任務，例如根據食物照片生成食譜，或是將音訊剪輯轉譯成多種語言等。

這與大多數只能處理單一模式數據的AI模型不同。例如，大型語言模型(LLM)只能處理文本數據，而摺積神經網絡(CNN)只能處理影像。

簡單來說，多模態實際上是在嘗試復制人類的感知方式：我們將視覺、聲音和觸覺等感官輸入結合起來，形成對現實的更細致入微的感知，並利用這些數據來做出決定或采取行動。多模態模式也在嘗試做同樣的事情。透過在單個模型中整合多種數據類別，多模態AI系統可以更全面地了解其環境。

多模態VS單模態

多模態AI模型可以同時處理多種類別的數據，而單模態AI模型僅限於單一類別的數據輸入，並且只能以特定的數據模態提供輸出。例如，支持ChatGPT免費版本的GPT-3.5只支持文本輸入和輸出，它就屬於單模態;但另一款ChatGPT模型GPT-
40可以處理文本、影像和音訊數據，它就屬於多模態。

多模態AI執行原理

多模態模型通常建立在轉換器(Transformer)架構上，透過計算數據點之間的關系，以理解和生成數據序列。它們處理「大量」的文本數據，刪除一些單詞，然後根據周圍單詞的上下文預測缺失的單詞是什麽。對於影像、音訊和模型設計用來理解的任何其他類別的數據，亦是如此操作。

這是透過一個稱為「嵌入」(Embedding)的過程來完成的，在這個過程中，原始數據被編碼成系統更容易理解和處理的數碼格式(向量)。例如，文本數據被分解成單獨的標記(單詞、字母等)，這些標記被轉換成數碼。音訊數據被分割並分解為音高和振幅等特征，這些特征也被轉化為數碼。然後將所有這些數碼輸入到轉換器中，轉換器捕獲不同模態內部和之間的關系和上下文。

在少數情況下，模型是「原生多模態」的——專門為處理多種數據類別而構建的——Embedding透過一個稱為「早期融合」(Early
Fusion)的過程同時發生，該過程將來自每種模態的原始數據組合、對齊和處理，使它們都具有相同(或相似)的數學表示。例如，這個模型不僅學會了「鴨子」這個詞，還學會了鴨子的樣子和聲音。從理論上講，這使得該模型不僅能夠辨識鴨子的照片、鴨子的嘎嘎聲或字母「D-U-C-K」，而且還能辨識鴨子是什麽這一更廣泛的「概念」。

然而，這種方法的實作並不容易，這就是為什麽目前存在的許多多模態系統都需要在後期透過一個稱為「後期融合」(Late
Fusion)——即在每種類別的數據分別進行分析和編碼之後——的過程合並來自多個模態的資訊。後期融合提供了一種結合和比較不同類別數據的方法，這些數據在各自的形式中外觀、大小和含義各不相同。

在開發出多模態模型後，使用帶有人類反饋的強化學習(RLHF)和紅隊等技術對其結果進行微調，以減少幻覺、偏見、安全風險和其他有害反應。一旦完成，該模型的行為應該類似於LLM，但具有處理文本以外的其他類別數據的能力。

多模態AI用例

以下是如今多模態AI套用的一些關鍵領域：

聊天機器人

配備多模態的AI聊天機器人可以比純文本聊天機器人更有效地響應使用者，提供更豐富、更有用的答案。例如，使用者可以輸入一張垂死的室內植物的照片，並獲得如何使其起死回生的建議，或者獲得他們連結到的影片的詳細解釋。

AI助手

像亞馬遜的Alexa和谷歌助手這樣的AI助手之所以存在，是因為多模態AI。這些智能器材可以透過簡單的語音命令進行控制，允許使用者調出特定的影像和影片，接收當前事件、指令和一般資訊(音訊和文本格式)，甚至調整家中的照明和溫度。

醫療保健

醫療領域需要解釋幾種形式的數據，包括醫學影像、臨床記錄、電子健康記錄和實驗室測試。單模態AI模型在特定模式下執行特定的醫療保健任務，例如分析X射線或辨識遺傳變異。LLM通常被用來幫助用簡單的術語回答與健康相關的問題。現在，研究人員開始將多模態AI引入其中，開發新的工具，將來自所有這些不同來源的數據結合起來，幫助進行醫學診斷。

自動駕駛汽車

由於多模態AI，自動駕駛汽車可以處理和解釋來自多個來源的數據。網絡攝影機提供有關車輛環境的視覺資訊，雷達探測物體及其速度，而激光雷達測量物體之間的距離，GPS提供位置和導航數據。透過將所有這些數據放在一起並進行分析，AI模型可以即時了解汽車周圍的環境並做出相應的反應——它們可以發現障礙物，預測其他車輛或行人的位置，並決定何時轉向、剎車或加速。

機器人

配備多模態AI的機器人整合了來自網絡攝影機、麥克風和深度傳感器的數據，使它們能夠更準確地感知環境並做出相應的反應。例如，它們可以使用網絡攝影機來觀察和辨識物體，或者使用麥克風來理解口頭命令。甚至可以透過傳感器固定，讓它們擁有觸覺、嗅覺和味覺等人類擁有的全部五種感官。無論是人形機器人還是裝配線上的協作機器人，多模態AI都能給各種機器人在不同的環境中有效地導航。

多模態AI的優勢

更好地理解上下文

在學習過程中，多模態模型同時整合和分析廣泛的數據類別，這使它們對給定主題有了更全面的上下文理解，而非每個單獨的數據類別單獨能夠傳達的內容。

例如，如果一個多模態模型被提示生成一段獅子的影片，它不僅會把「獅子」這個詞看作是一個字母序列——它還會知道獅子的樣子，獅子是如何移動的，以及獅子的吼聲是什麽樣的。

更準確的結果

由於多模態模型旨在辨識不同類別數據之間的模式和聯系，因此它們往往能夠更準確地理解和解釋資訊。

它們不僅可以透過分析文本，還可以透過分析影像來加強結果，從而更準確地預測，或者回答以前無法回答的問題。需要註意的是，多模態AI仍然有可能出錯，並可能產生偏見或其他有害的結果。

勝任更廣泛的任務

多模態AI系統可以處理比單模式AI系統更廣泛的任務。根據特定的模型，它們可以將文本提示轉換為AI生成的影像，用簡單的語言解釋影片中的內容，根據照片生成音訊剪輯等等。同時，單模態系統只能完成其中的一項任務。

更好地理解使用者意圖

多模態允許使用者選擇他們想要與AI系統互動的方式，而不是被困在一種交流模式中。

無論使用者是用動作、語言、打字、做手勢來表達自己，這都無關緊要。多模態AI系統可以讓使用者更好地控制他們想要表達的內容，以更好地捕捉他們的真實意圖。

更直觀的使用者體驗

由於多模態系統允許使用者根據自己的感覺以幾種不同的方式表達自己，因此使用者體驗「感覺更加直觀」。例如，使用者可以上傳一段音訊片段，而不必描述他們的汽車引擎發出的聲音，從而獲得有關問題的建議。或者，他們可以上傳冰箱和食品儲藏室的照片，而不是列出廚房裏所有的食物來尋求食譜建議。

多模態AI的挑戰

需要更多的數據

由於它們使用多種不同的模式，因此多模態模型需要大量數據才能正常工作。例如，如果一個模型的目標是將文本轉換為影像，反之亦然，那麽它需要有一個健壯的文本和影像數據集。

此外，模型所需的數據量還會隨著模型中參數(變量)的數量而增加。隨著參數數量的增加，模型需要的數據也就越多。

有限的數據可用性

並非所有的數據類別都很容易獲得，尤其是不太傳統的數據類別，比如溫度或手部運動。互聯網是許多AI模型訓練數據的重要來源，它主要由文本、影像和影片數據組成。因此，如果您想要制作一個可以處理任何其他類別數據的系統，則必須從私有儲存庫購買或自己制作。

數據很難對齊

正確地對齊多個不同的數據類別通常很困難。數據的大小、規模和結構各不相同，需要仔細處理和整合，以確保它們在單個AI系統中有效地協同工作。

計算密集且昂貴

在很大程度上，多模態之所以成為可能，要歸功於當今前所未有的計算資源。這些模型需要能夠同時處理海量的不同數據類別，這需要大量的計算能力。此外，在應用程式中部署多模態AI還需要強大的硬件基礎設施，這進一步增加了其計算需求和環境足跡。

更重要的是，它通常還很昂貴。單模態模型本身就很昂貴——傳言GPT-3花費了OpenAI近500萬美元，而Meta估計在Llama
2上花費了2000萬美元。多模態比這些模式還要貴「好幾個數量級」。

加劇現有的GenAI問題

常規GenAI模型的許多問題——即偏見、私密問題、幻覺——在多模態模型中也很普遍。多模態AI實際上可能會加劇這些問題。

在數據集中，偏差幾乎是不可避免的，因此將來自不同來源的數據結合起來可能會導致更明顯和更廣泛的偏差結果。處理不同類別的數據還可能涉及敏感資訊，進一步增加數據私密和安全的風險。此外，整合多種數據的復雜性可能會增加產生不準確或誤導性資訊的風險。

這些問題給機器人套用帶來了更大的風險，因為它們的行為會對物理世界產生直接影響。

您的機器人——無論是無人機、汽車還是人形機器人——都將在現實世界中采取某種行動，並產生物理後果。如果您在控制機器人的模型上沒有任何護欄，就有可能出現幻覺或對數據的錯誤解釋，導致機器人采取可能危險或有害的行動。

多模態AI的未來

許多專家認為，最終，多模態可能是實作通用AI(AGI)的關鍵。通用AI是一種理論形式的AI，可以像人類一樣理解、學習和執行任何智力任務。透過結合各種類別的數據，多模態模型可以對周圍的世界形成更全面和全面的理解，這反過來又可以使它能夠在廣泛的任務中套用知識，甚至比人類更好。

史蒂文斯理工學院機械工程系副教授Brendan
Englo表示：「在尋求一種看起來更像人類智能的AI時，它必須是多模態的。它必須像人類一樣處理盡可能多的輸入模式——視覺、語言、觸覺、身體動作——並且能夠以與人類相同的智能對所有這些事情做出反應。」