OmAgent - 基于强化学习的多模态智能体框架

发表于 2025年7月17日

1. 引言

随着大型语言模型(LLMs)与视觉语言模型(VLMs)的能力飞速发展,AI 技术正从「应试式」的任务达标转向「实战化」的复杂问题解决。用LLMs和VLMs去解决更实际更复杂的问题,而不是简单地通过“考试”, 这既是技术演进的必然方向,也是产业落地的核心诉求。与此同时,大语言模型催生的智能体(Agent)浪潮,正持续拓展 AI 在物理世界的应用边界:从 GUI 界面的在线购物操作,到具身机器人的家务劳动执行,让智能体像人类一样实现环境感知、思考规划与决策交互,已成为学术界与产业界共同面临的挑战。​

用户真正需要的是能在物理世界中交付结果、完成实际任务的「通用智能体」。基于这一目标,我们聚焦于探索一条可落地的技术路径:构建能在物理世界解决各类问题的AI 智能体,使其可部署于终端设备,成为智能终端的「核心大脑组件」。未来,无论是手机、摄像头、机器人还是无人机,都有望通过这一技术成为具身智能 AI Agent,并应用到工业管理、医疗诊断、个人助理、媒体创作等多元领域。​要实现这样的具身智能 AI Agent,我们需要突破四大核心能力:视觉感知、决策执行、语言交互与时空记忆。其中,语义交互能力已通过当前 LLMs 得到初步解决,而其余三者则是待突破的关键 —— 这既是挑战,也是技术革新的机遇。​今年 2 月,我们发布的强化学习驱动 VLM-R1 模型引发业界广泛关注:通过将 DeepSeek 在自然语言领域的推理能力延伸至视觉语言场景,验证了「强化学习提升 VLM 视觉感知与复杂环境推理能力」的技术路径。近期,我们进一步将这一路径拓展至决策执行领域,并结合原生多模态智能体框架,推出全球首个具身智能 AI Agent——OmAgent,一个基于强化学习的多模态智能体框架,并在实际应用中验证了该路径的可行性。

OmAgent特点

2. 方法

OmAgent是一个基于强化学习的多模态智能体框架。 该框架的核心理念是"简化复杂性",将复杂的工程实现(如时空记忆管理、工作流编排、任务队列、节点优化等)封装在后台,为开发者提供极其简洁易用的python接口。其具有以下特点:

OmAgent架构

原生多模态支持

可重用组件抽象

零复杂度开发体验

OmAgent框架是解决智能终端的核心组件。通过对原生多模态的支持和零复杂度的开发,可以轻松应用于不同的终端设备。同时,内置的基础算法模块与工具集,可以快速解决智能终端所需要的环境感知,交互,决策执行相关的记忆存储的挑战。对于视觉感知和决策执行的能力要求,我们通过将强化学习模型集成到OmAgent进行突破,让终端能在动态复杂环境中保持对环境感知的鲁棒性和对环境决策执行的有效性。

2.1 视觉感知能力突破 - 基于强化学习的极致环境感知

我们在视觉感知领域的技术积累可追溯至 2021 年发布的 OmDet 模型系列。经过多轮迭代升级,该模型从早期基于属性关系的万物感知能力,逐步进化为支持自然语言驱动的高效识别模式;配合轻量级训练与部署方案,OmDet 能够对周边环境实现快速的开放域感知与理解。2023 年,我们推出了mChat,并通过持续更新不断强化其对视觉 - 语言混合环境的感知与交互能力。2025 年初,借由 DeepSeek 技术突破的契机,我们将强化学习成功引入视觉语言模型领域,研发并推出 VLM-R1 模型。该模型在目标检测等多项视觉感知任务中,性能显著优于传统监督学习方法,让我们在视觉领域也捕捉到了类似认知突破的 “aha moment”。值得一提的是,通过在多类任务中开展训练验证,我们发现基于强化学习的 OmR1 模型在跨任务场景下展现出优异的泛化能力,为复杂环境中的视觉感知与决策提供了更灵活的技术支撑。

VLM-R1技术创新

VLM-R1核心技术创新主要包括:

在研究中,我们发现在视觉语言模型中,顿悟时刻 - "OD aha moment" 同样发生了,这是模型在强化学习训练过程中自发涌现的智能行为:

2.2 具身智能决策执行 - 模拟人类与环境交互执行

通过对环境的感知进行自动决策与执行,是具身智能的第二个难点。在 OmAgent 框架中,除了依托 VLM 模型完成任务拆分规划、调用 MCP等基础能力外,我们进一步模拟人类与外部环境的交互逻辑,创新提出 ZoomEye 树搜索算法 —— 这一算法专为增强 VLM 在高分辨率环境下的交互能力而设计,其核心思路是复刻人类观察环境时的 “缩放行为”:如同人眼会先整体扫视再聚焦细节,模型能通过类似的递进式探索,逐步深入解析环境中的关键信息。其核心创新点包括:

ZoomEye树搜索算法

3. OmAgent 在行业应用中的性能评估

为了验证OmAgent在实际应用的性能效果,我们在配备 8 张 80G A100 的硬件环境下,将 OmAgent 与主流大模型在开放目标理解(open detection)、复杂事件判断(visual cognition)、复杂多媒体文档理解(doc parsing)三大行业场景中进行对比测试。

行业评测对比

开放目标理解场景

模型 厂商 mAP 延迟(s/帧) QPS 成本(rmb/千帧) 平均输出token
OmDet(1B)Om AI30.800.018000.02-
OmR1(3B)Om AI34.811.5145.730.42149.25
GPT-4oOpenAI1.262.734.8116.558.67
Qwen2.5VL-32B阿里32.303.319.681.99127.39

在开放目标理解(open detection)任务的性能评测中,我们使用OVDEval作为评估数据集,该数据集覆盖率在开放场景下评估包括目标属性、小目标、负向目标等多元通用检测能力。首先,OmDet作为我们的超轻量级解决方案,仅使用1B参数就实现了30.80 mAP的优异成绩,同时将延迟控制在惊人的0.01秒,QPS高达800,为实时场景提供了高效解决方案。通过把强化学习引入VLM模型,OmR1可以识别更加复杂的目标与类型,通过推理的方式,达到了34.81 mAP,显著超越了其他模型,验证了强化学习方法在视觉语言模型中的潜力。另外一个值得关注的是我们在成本控制方面的突破性成果。OmDet的处理成本仅为0.02元/千页,相比GPT-4o降低了825倍, 而OmR1也以3B的模型规模将成本压缩到相比GPT-4o 降低38倍。

复杂事件判断

模型 厂商 精确率 延迟(s/帧) QPS 成本(rmb/千帧) 平均输出token
OmR1(3B)Om AI80.74%3.026.562.94174.45
Qwen2.5VL-32B阿里74.01%3.772.088.4631.38
GPT-4oOpenAI67.29%4.684.0928.432.68

复杂事件判断 (visual cognition) 是面向监控场景的通用判断模型,专注于处理多类场景下的智能分析任务。在该任务中,用户可根据不同场景自定义复杂管控规则,并通过指令灵活定义复杂异常事件 —— 内置模型的智能体需依据这些定义完成环境判断、异常分析,并在图像中精准标注异常位置。在这一行业应用中,基于强化学习的OmR1模型展表现同样出色。OmR1以80.74%的精确率显著超越其他规模更大的模型。通过推理,OmR1平均输出token为174.45,在复杂推理过程中能够产生更加详细和深入的分析内容。从成本效益角度分析,OmR1的处理成本相比GPT-4o降低了近90%,在实际应用场景中展现出极强的实用价值。

复杂多媒体文档理解

模型 厂商 准确度 延迟(s/页) QPS 成本(rmb/千页)
OmDoc(1B)Om AI77.83%0.27299.20.06
Qwen2.5VL-32B阿里74.40%4.563.715.19
GPT-4oOpenAI76.46%8.160.83671.2

复杂多媒体文档理解(doc parsing)任务主要针对包含表格、图表等结构关系复杂复杂长文档进行解析,记忆存储,及相关问题解答的能力。OmDoc这一文档智能体应用展现出了显著的技术优势。从性能数据来看,OmDoc在准确度上达到77.83%,超越了其他更大规模的模型,在保持高精度的同时实现了全面的性能领先。在效率方面,OmDoc将处理延迟控制在0.27秒,相比Qwen2.5VL-32B提升了17倍,相比GPT-4o提升了30倍,这种毫秒级的响应速度为实时文档分析应用提供了坚实的技术基础。在吞吐量表现上,OmDoc的QPS达到299.2,为大规模批处理场景提供了强有力的技术支撑。更为突出的是OmDoc在成本控制方面的卓越表现,处理成本仅为0.06元/千页,相比GPT-4o的71.2元/千页更是降低了1187倍。

4. 开源贡献:构建AI 智能技术生态

同时,我们始终坚信技术的生命力源于生态共建。为此,我们将核心技术体系向开源社区全面开放,并受到社区的强烈反响,在github 累计收获超 9K star。

5. 展望

智能终端的进化之路,从来不是单一模型能够独当一面的坦途,其需兼顾环境复杂性、任务多样性、与交互关联性。我们的愿景是,以 OmAgent 为技术中枢,为未来的每一个智能终端注入「完整的智能人格」。我们期待看到,物理世界中的所有终端都能突破当前的功能边界,蜕变为自主感知、主动决策、持续进化的具身智能体。让智能体在工业安全生产管理、医疗诊断等各种领域大显身手,让 AI 走出数据中心,深度融入物理世界,成为产业升级与生活变革的核心驱动力。​

更多技术细节和开源项目,请访问:Om AI Lab GitHub

技术交流与合作,欢迎联系我们。