手机的新朋友：MobileVLM，让手机看懂图片，听懂你的话

2024-01-07手机

在这个信息爆炸的时代，我们对智能助手的需求日益增长。然而，如何在有限的设备资源上实现高效、强大的智能交互，一直是科技界的挑战。今天，我要介绍一个由美团开发的创新 开源项目——MobileVLM ， 它不仅快速、强大，而且完全开放 ，为移动设备带来了前所未有的视觉语言助手体验。

MobileVLM 是一款专为移动设备设计的多模态视觉语言模型 。它融合了众多针对移动设备优化的架构设计和技术，包括从零开始训练的1.4亿和2.7亿参数的语言模型，以及以CLIP风格预训练的多模态视觉模型，通过高效的投影器实现跨模态交互。

MobileVLM的特性：

1、高效性能： MobileVLM在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上实现了每秒21.5个和65.3个令牌的顶级推理速度，这意味着它能够在移动设备上快速响应用户的查询。

2、多模态交互： MobileVLM能够同时处理图像和语言指令，为用户提供更加丰富和直观的交互体验。

3、开放性： 项目完全开放，任何人都可以在GitHub上找到源代码，这意味着开发者和研究者可以自由地探索和改进这一模型。

随着技术的不断进步，MobileVLM将继续优化，以适应更广泛的应用场景。无论是在智能手机、平板电脑还是其他移动设备上，MobileVLM都有望成为用户获取信息、执行任务的强大助手。

MobileVLM的推出，不仅标志着移动设备上智能助手的新纪元，也为人工智能在移动领域的应用开辟了新的可能性。

项目网址：https://github.com/Meituan-AutoML/MobileVLM