手机也能跑多模态大模型?苹果开源多模态轻量化 FastVLM 架构!

我们今天来聊聊多模态“端侧AI”的落地,尤其是在手机等边缘设备上部署视觉语言模型时,如何解决“大模型、高延迟”的问题。

图像分辨率是视觉语言模型性能的关键因素,尤其是对于富含文本和图表的数据。然而,主流的视觉编码器在处理高分辨率图像时,会生成大量的视觉 token,从而导致 LLM 的 Prefilling 时间增加。

有没有一种适合部署的模型,既能让 VLM 看得清,又能跑得快?

出于在设备上部署的考虑,苹果团队从运行时效率的角度重新研究视觉语言模型的设计和训练,全面开源了FastVLM:一种兼顾精度与效率的新型视觉语言模型架构,并且给出了在 iPhone、iPad 或 Mac 等 Apple 设备上运行推理的代码及模型!

一、先理解一下 VLM 的性能指标?

在评估视觉语言模型(VLM)的效率时,常提到Prefilling和TTFT两个关键指标。

一个是Time To First Token (TTFT, 首 token 延迟),从用户输入图像或问题,到模型输出第一个 token 所需的时间,是衡量交互体验的核心指标;

一个是LLM Prefilling 预填充阶段:指 LLM 对输入的视觉 token 和文本进行预处理并初始化 KV Cache 的阶段。

如上图所示,图像分辨率越高,视觉编码器生成的 token 数量就越多,视觉编码延迟在高分辨率下占主导地位。这就像你在高清地图里查找一个地点,信息越详细,加载时间就越久。

二、FastVLM 如何降低视觉编码器时延?

从架构方面:将 CNN 的局部感知能力与 Transformer 的全局建模能力相结合,构建一个“又快又准”的视觉编码器。使用预训练 MobileCLIP 的混合卷积,它生成视觉标记的速度比 ViT 模型快 4 倍以上。

FastVLM-0.5B 相比 LLaVA-OneVision-0.5B,首 token 时间(TTFT)提升了 85倍 ,同时视觉编码器缩小了 3.4倍 。

从输出方面:支持动态分辨率输入,输出更少的 token,从而减少 LLM 的负担。只通过调整图像输入分辨率,就能自动实现“token数量”与“信息完整性”的最佳平衡。输出 token 数量减少至 576,压缩率达 62.5% 。

三、FastVLM 的通用性与实验结果?

首先该架构不再需要堆叠大量参数来换取精度,更适合部署在手机、平板等资源受限设备上。

其次FastVLM并不绑定特定 LLM,可扩展性强,可以灵活对接不同大小的语言模型。

实验表明:使用 Qwen2-7B 搭配 FastViTHD 编码器,其速度甚至超过 Cambrian-1-8B 达到 7.9倍 ,并在 TextVQA 和 DocVQA 等任务中分别提升 8.4% 和 12.5% 。

苹果这次罕见地全面开源了 FastVLM,并提供 Hugging Face 权重文件,方便开发者直接微调与部署。配套还有完整的推理指南,大大降低了使用门槛。代码及论文地址:

https://www.arxiv.org/pdf/2412.13303

https://github.com/apple/ml-fastvlm

最后对视觉大模型或者多模态大模型感兴趣的可后台私信‘加群’进入视觉大模型交流群或者多模态大模型交流群!



视觉大模型 · 文章推荐

视觉大模型、代码教程及案例年度精选:2024年度回顾与索引指南

病理大模型四重奏,从UNI、CHIEF到TITAN,适用30+癌症类型

Meta以人为中心的视觉基础模型:姿势估计、深度估计等任务

将 SAM2 与 LLaVA 结合,在视频支持对话、指称分割及理解的统一模型

原文链接:,转发请注明来源!