當前位置: 華文世界 > 手機

手機的新朋友:MobileVLM,讓手機看懂圖片,聽懂你的話

2024-01-07手機

在這個資訊爆炸的時代,我們對智能助手的需求日益增長。然而,如何在有限的器材資源上實作高效、強大的智能互動,一直是科技界的挑戰。今天,我要介紹一個由美團開發的創新 開源專案——MobileVLM 它不僅快速、強大,而且完全開放 ,為流動通訊器材帶來了前所未有的視覺語言助手體驗。

MobileVLM 是一款專為流動通訊器材設計的多模態視覺語言模型 。它融合了眾多針對流動通訊器材最佳化的架構設計和技術,包括從零開始訓練的1.4億和2.7億參數的語言模型,以及以CLIP風格預訓練的多模態視覺模型,透過高效的投影器實作跨模態互動。

MobileVLM的特性:

1、高效效能: MobileVLM在高通驍龍888 CPU和NVIDIA Jeston Orin GPU上實作了每秒21.5個和65.3個令牌的頂級推理速度,這意味著它能夠在流動通訊器材上快速響應使用者的查詢。

2、多模態互動: MobileVLM能夠同時處理影像和語言指令,為使用者提供更加豐富和直觀的互動體驗。

3、開放性: 專案完全開放,任何人都可以在GitHub上找到原始碼,這意味著開發者和研究者可以自由地探索和改進這一模型。

隨著技術的不斷進步,MobileVLM將繼續最佳化,以適應更廣泛的套用場景。無論是在智能電話、平板電腦還是其他流動通訊器材上,MobileVLM都有望成為使用者獲取資訊、執行任務的強大助手。

MobileVLM的推出,不僅標誌著流動通訊器材上智能助手的新紀元,也為人工智能在移動領域的套用開辟了新的可能性。

專案網址:https://github.com/Meituan-AutoML/MobileVLM