我们今天来聊聊多模态“端侧AI”的落地，尤其是在手机等边缘设备上部署视觉语言模型时，如何解决“大模型、高延迟”的问题。

图像分辨率是视觉语言模型性能的关键因素，尤其是对于富含文本和图表的数据。然而，主流的视觉编码器在处理高分辨率图像时，会生成大量的视觉 token，从而导致 LLM 的 Prefilling 时间增加。

有没有一种适合部署的模型，既能让 VLM 看得清，又能跑得快？

出于在设备上部署的考虑，苹果团队从运行时效率的角度重新研究视觉语言模型的设计和训练，全面开源了FastVLM：一种兼顾精度与效率的新型视觉语言模型架构，并且给出了在 iPhone、iPad 或 Mac 等 Apple 设备上运行推理的代码及模型！

一、先理解一下 VLM 的性能指标？

在评估视觉语言模型（VLM）的效率时，常提到Prefilling和TTFT两个关键指标。

一个是Time To First Token (TTFT, 首 token 延迟)，从用户输入图像或问题，到模型输出第一个 token 所需的时间，是衡量交互体验的核心指标；

一个是LLM Prefilling 预填充阶段：指 LLM 对输入的视觉 token 和文本进行预处理并初始化 KV Cache 的阶段。

如上图所示，图像分辨率越高，视觉编码器生成的 token 数量就越多，视觉编码延迟在高分辨率下占主导地位。这就像你在高清地图里查找一个地点，信息越详细，加载时间就越久。

二、FastVLM 如何降低视觉编码器时延？

从架构方面：将 CNN 的局部感知能力与 Transformer 的全局建模能力相结合，构建一个“又快又准”的视觉编码器。使用预训练 MobileCLIP 的混合卷积，它生成视觉标记的速度比 ViT 模型快 4 倍以上。

FastVLM-0.5B 相比 LLaVA-OneVision-0.5B，首 token 时间（TTFT）提升了 85倍，同时视觉编码器缩小了 3.4倍。

从输出方面：支持动态分辨率输入，输出更少的 token，从而减少 LLM 的负担。只通过调整图像输入分辨率，就能自动实现“token数量”与“信息完整性”的最佳平衡。输出 token 数量减少至 576，压缩率达 62.5% 。

首先该架构不再需要堆叠大量参数来换取精度，更适合部署在手机、平板等资源受限设备上。

其次FastVLM并不绑定特定 LLM，可扩展性强，可以灵活对接不同大小的语言模型。

实验表明：使用 Qwen2-7B 搭配 FastViTHD 编码器，其速度甚至超过 Cambrian-1-8B 达到 7.9倍，并在 TextVQA 和 DocVQA 等任务中分别提升 8.4% 和 12.5% 。

苹果这次罕见地全面开源了 FastVLM，并提供 Hugging Face 权重文件，方便开发者直接微调与部署。配套还有完整的推理指南，大大降低了使用门槛。代码及论文地址：

https://www.arxiv.org/pdf/2412.13303
https://github.com/apple/ml-fastvlm

最后对视觉大模型或者多模态大模型感兴趣的可后台私信‘加群’进入视觉大模型交流群或者多模态大模型交流群！

视觉大模型 · 文章推荐

视觉大模型、代码教程及案例年度精选：2024年度回顾与索引指南

病理大模型四重奏，从UNI、CHIEF到TITAN，适用30+癌症类型

Meta以人为中心的视觉基础模型：姿势估计、深度估计等任务

将 SAM2 与 LLaVA 结合，在视频支持对话、指称分割及理解的统一模型