手機的新朋友：MobileVLM，讓手機看懂圖片，聽懂你的話

2024-01-07手機

在這個資訊爆炸的時代，我們對智能助手的需求日益增長。然而，如何在有限的器材資源上實作高效、強大的智能互動，一直是科技界的挑戰。今天，我要介紹一個由美團開發的創新 開源專案——MobileVLM ， 它不僅快速、強大，而且完全開放 ，為流動通訊器材帶來了前所未有的視覺語言助手體驗。

MobileVLM 是一款專為流動通訊器材設計的多模態視覺語言模型 。它融合了眾多針對流動通訊器材最佳化的架構設計和技術，包括從零開始訓練的1.4億和2.7億參數的語言模型，以及以CLIP風格預訓練的多模態視覺模型，透過高效的投影器實作跨模態互動。

MobileVLM的特性：

1、高效效能： MobileVLM在高通驍龍888 CPU和NVIDIA Jeston Orin GPU上實作了每秒21.5個和65.3個令牌的頂級推理速度，這意味著它能夠在流動通訊器材上快速響應使用者的查詢。

2、多模態互動： MobileVLM能夠同時處理影像和語言指令，為使用者提供更加豐富和直觀的互動體驗。

3、開放性： 專案完全開放，任何人都可以在GitHub上找到原始碼，這意味著開發者和研究者可以自由地探索和改進這一模型。

隨著技術的不斷進步，MobileVLM將繼續最佳化，以適應更廣泛的套用場景。無論是在智能電話、平板電腦還是其他流動通訊器材上，MobileVLM都有望成為使用者獲取資訊、執行任務的強大助手。

MobileVLM的推出，不僅標誌著流動通訊器材上智能助手的新紀元，也為人工智能在移動領域的套用開辟了新的可能性。

專案網址：https://github.com/Meituan-AutoML/MobileVLM