VLX-Seek：VLM 细粒度感知增强：从“坐标生成”到“区域指代”

摘要

当多模态大模型（VLM）开始进入真实场景的摄像头、无人机和具身机器人，单纯讨论“模型有多聪明”已经不够了。机器人不仅需要知道“画面里有什么”，更需要准确知道“它在哪里”。

然而，当前的主流 VLM 虽然在图像全局场景理解上表现优异，但在需要精确定位的细粒度感知任务上往往表现不佳。为了弥补这一短板，我们推出了 VLX-Seek。它作为一个面向端侧具身视觉的高效推理模型，将 VLM 的能力从“看懂”直接推向了“精准定位”。

一、VLM 为什么看得懂，却不一定看得准？

通用 VLM 的优势在于语义理解和语言推理。它们可以描述图片内容，回答视觉问题，理解复杂指令，也能在一定程度上完成视觉推理。但精确定位是另一类问题：定位不仅要求模型知道“这是什么”，还要求模型判断“它在哪里”“边界到哪里”“有几个实例”“哪一个目标符合这段描述”。这类任务依赖更强的局部细节、空间结构和实例区分能力。

传统 VLM 常见的定位方式，是让语言模型直接生成坐标，例如 [x1, y1, x2, y2]。这个形式看起来简单，实际却很脆弱。坐标不是自然语言，LLM 更擅长生成词语、短语和句子，而不是稳定地产生精确数值。一个框有四个坐标，多个框就会变成更长的数字序列。坐标顺序、归一化范围、标点格式、目标数量，只要任何一处出错，最终结果就可能无法解析，或者框的位置明显偏离目标。

多目标检测会进一步放大这个问题。一个目标需要生成四个坐标，十个目标就意味着几十个坐标 token。目标越多，输出越长，模型越容易漏掉目标，也越容易在格式上出错。更重要的是，长坐标序列会直接拖慢解码过程：每多生成一个坐标 token，模型都要多走一步自回归推理。对于云端离线分析，这可能只是多等一会儿；但在机器人、无人机、摄像头和边缘终端等具身端侧场景中，定位结果往往要实时反馈给导航、抓取、避障或交互模块，推理效率本身就是核心指标。坐标生成式 VLM 在多目标场景下会把大量输出预算花在数值坐标上，而不是更快地完成目标选择和空间决策。

因此，问题的本质不是 VLM 完全“不会看图”，而是精确定位这种任务形式，和语言模型的生成方式并不天然匹配。VLX-Seek 换了一个角度：不要让模型凭空生成框，而是让模型理解候选区域，并在这些区域之间做选择。

二、核心思路：从坐标生成到区域指代

VLX-Seek 的核心范式可以概括为一句话：把以对象为中心的感知任务，从坐标生成问题，改写成特征检索和区域引用问题。也就是说，模型不再只接收全图视觉 token 和文本 token，而是额外接收一组可寻址的区域 token。每个区域 token 都对应图像中的一个候选区域，模型可以像引用文本实体一样引用这些视觉区域。

例如，输入中可以包含 <region0>、<region1>、<region2> 这样的区域索引，以及它们对应的区域 token。当用户问“穿红衣服的人在哪里”时，模型不需要从零开始生成坐标，而是判断哪个区域 token 最符合描述，然后输出对应的区域索引。这样，定位任务就不再是“生成精确几何数字”，而是变成了“在候选视觉区域中做语言条件检索”。

这种形式更符合 LLM 的能力边界。语言模型本来就擅长比较、选择、指代、解释和推理；VLX-Seek 则把候选区域提前编码成它能处理的 token，让定位能力进入语言模型更自然的工作方式。这个变化看似简单，但影响很大：检测、指代表达理解、区域描述、区域问答和目标计数，都可以统一到“区域引用”这个框架中。模型不再只是说“画面里有一个人”，而是可以进一步指出“是这个区域里的这个人”。

三、推理链路：先召回区域，再把区域变成 token

VLX-Seek 的推理链路可以分成三步。第一步是生成候选区域，系统先通过候选区域生成网络（Omni Proposal Network，简称 OPN）召回图像中可能包含前景目标的区域。这一步并不负责最终判断目标类别，而是尽可能把图像中有意义的对象区域找出来，为后续语言模型的推理提供明确的视觉候选。VLX-Seek 的设计是解耦的，候选区域生成网络并不和 VLM 主体强绑定。实际应用中，它可以替换为其他检测器，也可以直接使用人工指定的感兴趣区域。

第二步是把候选区域编码成区域 token。候选框本身只是一个几何范围，它告诉模型“这里有一个区域”，但还没有告诉模型“这个区域里是什么”“它和其他区域有什么区别”“它是否符合用户的文本描述”。因此，VLX-Seek 使用混合细粒度区域编码器 HFRE，从候选框中提取区域级视觉特征，并将这些特征投影到 LLM 的嵌入空间。经过这一步，区域就不再只是坐标，而变成了语言模型可以读取、比较和引用的视觉表示。

第三步是让 LLM 基于区域 token 完成推理。模型输入不再只有全局图像 token 和文本 token，还会插入带有编号的区域 token，例如 <region0>、<region1>、<region2>。用户可以用自然语言描述目标，模型则通过区域索引完成定位和回答。这套机制把定位任务转化成了更稳定的区域指代任务：模型不再凭空生成坐标，而是在显式候选区域中进行选择、组合和解释。

四、HFRE：让区域 token 同时拥有语义和细节

VLX-Seek 的核心组件是 HFRE，也就是混合细粒度区域编码器。它要解决的问题是：单一视觉编码器很难同时满足“语义对齐”和“细粒度空间感知”。通用 VLM 原始的视觉编码器通常已经和语言模型完成对齐，擅长提供全局语义信息。它知道图像大概是什么，目标可能属于什么类别，也能支持高层理解。但这类编码器往往不是为精细检测训练的，对小目标、边界、局部纹理和多尺度区域的表达并不充分。

检测类或高分辨率视觉编码器则相反。它们对局部细节、边缘、纹理和空间结构更敏感，但未必天然处在 LLM 可以直接理解的语义空间中。VLX-Seek 的方案，是把两种能力结合起来：主视觉编码器保留原始 VLM 的语义对齐能力，让模型知道一个区域“像什么、可能是什么”；辅助视觉编码器则提供更高分辨率的局部细节，让模型看到边界、纹理、小目标和区域差异。

随后，SimpleFP 模块会为 ViT 类视觉特征补足多尺度表达。真实图像里的目标大小差异很大，同一张图中可能既有占据大面积的人，也有很小的手机、杯子或标识牌。单尺度特征很难同时处理这些目标，多尺度结构可以让模型更好地适应不同大小的候选区域。接着，VLX-Seek 会根据候选框从视觉特征图中抽取区域特征，相当于把“整张图的视觉信息”切分成“一个个候选目标的视觉信息”。最后，区域-语言连接器会把区域特征投影到 LLM 的嵌入空间，让一个候选框真正变成语言模型可以读取、引用和推理的区域 token。

这套结构的核心价值，是让区域 token 同时携带两类信息：一类是高层语义，另一类是细粒度空间细节。对于普通 VQA 来说，模型知道“这是一辆车”可能就够了；但对于开放词汇检测和具身任务来说，模型还必须知道“是哪一辆车”“车在画面哪里”“它和旁边目标的边界如何区分”。这正是 HFRE 要补上的能力。

五、区域引用机制：让视觉区域变成可被语言引用的对象

VLX-Seek 不是简单地把区域特征塞进模型，而是设计了一套基于 token 的区域引用机制。在输入侧，每个区域都有一个显式编号。例如，第 0 个候选区域对应 <region0>，第 1 个候选区域对应 <region1>，第 2 个候选区域对应 <region2>。这些区域编号会和对应的区域 token 一起进入语言模型，使 LLM 能够把区域特征和区域编号绑定起来。

在输出侧，模型可以通过特殊 token 表达视觉定位关系。例如，The <ground>people</ground><object><region2><region10></object> are dancing. 这表示文本中的 “people” 对应图像中的 <region2> 和 <region10>。通过这种方式，模型输出的不是一串容易出错的坐标数字，而是更稳定、更容易解析的区域引用。更重要的是，区域引用通常比坐标生成更短：模型只需要输出对应的区域索引，而不必为每个目标逐个生成 [x1, y1, x2, y2] 这样的坐标序列。目标数量越多，这种差异越明显，也就意味着更少的输出 token、更低的解码开销和更快的推理速度。

这套机制带来四个直接好处。第一，定位结果更稳定，因为模型输出的是区域索引，而不是精确数值坐标。第二，推理链路更清晰，模型可以先理解文本描述，再判断对应区域，最后输出可解析的区域引用。第三，推理速度更快，尤其是在多目标检测和计数场景中，区域索引输出比长坐标序列更轻量。第四，任务形态更统一，检测、指代表达理解、区域描述、区域问答和计数，都可以在同一套区域 token 框架下完成。

这也是 VLX-Seek 相比普通检测增强 VLM 的关键区别：它不是简单给 VLM 外接一个检测头，而是把区域作为一种新的视觉语言实体引入模型。换句话说，VLX-Seek 让图像中的目标获得了类似“语言实体”的地位。模型不仅能描述它，还能引用它、比较它、推理它；同时，由于输出形式从长坐标序列变成了紧凑的区域索引，系统在复杂多目标场景下也更容易保持较高的推理效率。

六、两阶段训练：先对齐区域，再强化感知

VLX-Seek 的训练采用两阶段策略，目标是在增强细粒度感知能力的同时，尽量不破坏模型本身的通用能力。第一阶段是区域-语言对齐。这个阶段的重点，不是让模型立刻学会所有检测和感知任务，而是先让新增的区域 token 对齐到 LLM 的特征空间。训练时会冻结主干 VLM 的主要参数，把学习压力集中在 HFRE、区域-语言连接器和新增特殊 token 上。这样做的好处是，模型可以先稳定理解“一个区域 token 对应一个视觉区域”，也就是先学会把视觉区域接入语言模型，再去处理更复杂的感知指令。

第二阶段是感知指令微调。这一阶段会引入更丰富的感知任务，包括检测、引用表达理解、区域描述、区域推理、计数和 OCR 等，让模型在真实指令中学习如何使用区域 token。这里的关键不是单纯堆数据，而是同时避免两个风险：一是增强细粒度感知后损伤原有通用视觉理解能力，二是模型在目标不存在时仍然幻觉式地给出答案。

第一个风险对应的是灾难性遗忘。VLM 模型本身原本已经具备图像问答、描述和常识推理等能力，如果训练过程过度偏向检测任务，可能会损伤这些通用能力。因此，训练中会混入常规 VLM 指令数据，用来保持模型原有的视觉语言能力。第二个风险对应的是开放词汇检测中的拒识能力。真实场景的难点不只是“找到存在的东西”，还包括“不要把不存在的东西找出来”。因此，训练中会加入拒识样本，让模型面对不存在的目标时学会回答“没有”，而不是强行指向某个区域。

这也是 VLX-Seek 比单纯检测增强方案更完整的地方。它不仅学习“如何找到目标”，也学习“什么时候不该找”。

七、能力结果：小参数模型补上细粒度感知短板

从实验评测看，VLX-Seek-3B 在多个细粒度感知任务上已经展现出明显优势。在通用目标检测上，VLX-Seek-3B 在 COCO 检测任务中达到 45.3 mAP，高于 Qwen2.5-VL-7B 的 17.7，也高于 Gemini 3.1 Pro 的 41.4。这说明它并不是只在语言推理上更强，而是确实补上了 VLM 在区域级定位上的短板。

在开放词汇检测上，VLX-Seek-3B 在 OVDEval 上达到 43.7。OVDEval 的难点在于，它不仅要求模型识别开放类别，还包含更复杂的语言标签和难负样本。换句话说，模型要能区分“真正符合描述的目标”和“看起来相似但并不符合描述的目标”。VLX-Seek 在这个任务上的表现，说明区域 token 机制不仅能做普通检测，也能结合 VLM 的语言理解能力处理更复杂的开放语义定位。

在复杂指代表达任务上，VLX-Seek-3B 在 RefCOCO 系列任务中的平均表现达到 88.7，高于 Gemini 3 Pro 的 84.1，也高于 Qwen3-VL-8B 的 88.2。这个结果说明，它不仅能找常见类别目标，也能理解更复杂的自然语言描述，例如“左边第二个穿黑色衣服的人”“靠近桌子的那只杯子”“被另一个物体遮住一部分的目标”。

在目标计数上，VLX-Seek-3B 在 PixMo-Count 上达到 85.0，高于 Gemini 2.5 Pro 的 73.8。计数任务看似简单，但对 VLM 来说一直不容易，因为模型如果只依赖全局语义，很容易估多或估少。VLX-Seek 的优势在于，它可以先检测并引用目标实例，再进行聚合计数。这种“先检测、再计数”的方式，比直接让模型凭画面印象估数量更可靠。

具体分数对比

一句话总结，VLX-Seek 的技术价值在于：它让 VLM 更像一个真正能“看细节”的视觉系统，而不只是一个能描述画面大意的语言接口。

八、VLX-Seek 和传统方案有什么不同？

相比普通 VLM，VLX-Seek 的不同在于，它不满足于描述画面，而是显式建模图像中的候选区域。普通 VLM 可以回答“画面里有几个人”，但在复杂定位、目标计数和开放词汇检测中容易不稳定。VLX-Seek 通过区域 token 把目标实例引入模型，让模型具备更强的细节定位能力。

相比专用检测器，VLX-Seek 的不同在于，它不只是输出固定类别的边界框。传统检测器在封闭类别上很稳定，但对自然语言描述、开放词汇类别、复杂关系和多轮指代的理解有限。VLX-Seek 借助 VLM 的语言理解和世界知识，让检测与语义推理结合起来。

相比坐标生成式 VLM，VLX-Seek 的不同在于，它不让语言模型直接承担精确数值生成的压力。坐标生成很容易受到格式错误、长序列累积误差和多目标漏检影响，而区域引用更接近 LLM 擅长的指代和选择任务。同时，VLX-Seek 的推理效率也更高：生成式 VLM 往往需要为每个目标输出完整坐标序列，而 VLX-Seek 只需要输出对应的区域索引。目标越多，区域引用在输出长度和解码开销上的优势越明显。

相比外接检测头的方案，VLX-Seek 的不同在于，它不是简单把检测结果附加到 VLM 外部，而是把区域变成模型内部可以读取和引用的视觉语言实体。这样，区域不只是最终输出结果，而是可以真正参与语言推理过程。

这种设计让 VLX-Seek 兼具两类能力：一方面，它继承了检测器对空间区域的召回能力；另一方面，它保留了 VLM 对自然语言、开放类别和复杂语义关系的理解能力。

九、技术价值：以细粒度定位支撑具身行动

VLX-Seek 的核心价值，是让 VLM 不再只会“描述画面”，而是能用更小的模型规模看清目标、锚定目标。它让小参数 VLM 也能在目标检测、开放词汇定位、复杂指代表达、区域 OCR 和目标计数等任务中达到接近甚至超过更大模型的效果。这一点对具身设备非常关键，因为机器人、无人机、摄像头和边缘终端真正需要的，不只是一个离线评测分数更高的大模型，而是一个能在有限算力、显存和功耗下持续运行的感知模块。

更小的模型、更快的推理，也意味着更低的部署成本。对于端侧具身设备来说，模型越轻，所需算力和显存越低，运行功耗越可控，对高规格 GPU 或云端推理的依赖也越少。这不仅降低了硬件成本和推理成本，也减少了端云传输带来的延迟、带宽占用和隐私风险。换句话说，VLX-Seek 的价值不只是“看得更准”，还在于它让细粒度视觉感知更接近真实设备可以长期运行的形态。

更重要的是，具身系统要行动，必须先有稳定的空间锚点。它需要知道目标在哪里、是哪一个、是否还在，以及和周围环境是什么关系。VLX-Seek 补上的正是这层区域级感知能力：它可以为跟随、避障、巡检、抓取、导航和多轮交互提供清晰的目标位置与视觉依据。对于端侧具身智能来说，这不是锦上添花，而是从“看懂画面”走向“可执行行动”的基础能力。

更多技术细节和开源项目，请访问：om-ai-lab/VLX-Seek。