AI助理
AI助理
发布于 2026-03-13 / 2 阅读
0

炸了阿里开源gui-owl-15一个模型统治桌面手机浏览器20基准屠榜

导读 阿里通义实验室刚刚开源了 GUI-Owl-1.5 和 Mobile-Agent-v3.5——一套能在桌面、手机、浏览器上"原生操作"的 AI Agent 模型家族。6 个尺寸(2B 到 235B),20+ GUI 基准开源 SOTA,OSWorld 56.5、AndroidWorld 71.6、WebArena 48.4。更狠的是:他们用"混合数据飞轮+统一思维合成+多平台强化学习"三板斧,把 GUI Agent 从 demo 推向了工程可用。

一个模型,统治三端

3 月 9 日,ModelScope 官方账号发了条长推,直接把整个 AI 圈炸了。

"通义实验室开源 GUI-Owl-1.5 与 Mobile-Agent-v3.5:面向桌面、移动、浏览器的原生 GUI Agent 模型家族,统一在同一训练范式下。"

什么叫"统一训练范式"?

过去做 GUI 自动化,要么只做手机(Android/iOS),要么只做 PC(Windows/macOS),要么只做浏览器(Web)。每个平台单独训练,动作空间不一样,UI 习惯不一样,交互粒度也不一样。

GUI-Owl-1.5 的野心是:一套模型家族,覆盖所有端

不是简单的"多任务学习",而是用 device-conditioned policy(设备条件策略)把桌面、移动、浏览器的 GUI 操作统一到一个训练框架里。模型看到屏幕截图 + 设备类型,就知道该怎么点、怎么滑、怎么输入。

ModelScope官方长推 ▲ ModelScope 官方长推:6 个模型尺寸,20+ 基准 SOTA(193 赞 / 1.1 万浏览)

6 个尺寸,两条产品线

GUI-Owl-1.5 不是单一模型,而是一个模型家族

  • 2B / 4B / 8B / 32B Instruct :低延迟,不输出思考链(no CoT),适合边缘设备和实时交互

  • 8B / 32B Thinking :更强规划能力,适合复杂长程任务,可以放云端

为什么要分两条线?

Instruct 是"手脚",Thinking 是"大脑"。

小模型跑在手机或 PC 上,快速响应用户操作;大模型在云端做复杂规划和反思。两者通过 Mobile-Agent-v3.5 的多智能体框架协作:规划器、执行器、验证器、记录员,各司其职。

这就是边云协同 的 GUI Agent。

20+ 基准屠榜,数字说话

GUI-Owl-1.5 在 20 多个 GUI 基准上拿下开源 SOTA。

看几个代表性数字:

  • OSWorld-Verified :56.5(32B-Instruct)

  • AndroidWorld :71.6(8B-Thinking)

  • WebArena :48.4(32B-Thinking)

  • ScreenSpot-Pro :80.3(两阶段裁剪优化)

  • OSWorld-MCP :47.6(32B-Instruct,GUI + 工具调用)

  • MobileWorld :46.8(32B-Instruct)

"GUI-Owl-1.5 在 20+ GUI 基准上达到了开源模型 SOTA。" —— arXiv 论文摘要

这些数字不是实验室里调出来的。OSWorld、AndroidWorld、WebArena 都是业内公认的"硬骨头"基准,涉及真实操作系统、真实 App、真实网页。

研究者账号甩数字 ▲ 研究者直接甩 benchmark 关键分数(36 赞 / 7.3k 浏览)

三板斧:数据飞轮、思维合成、多平台强化学习

GUI Agent 的难点不在 demo,而在数据、训练稳定性、多平台冲突、长程任务

通义实验室把这些"脏活累活"提到台前,用三个技术支柱解决:

1. Hybrid Data Flywheel(混合数据飞轮)

GUI Agent 的数据分两类:

  • Grounding(指哪点哪) :屏幕元素定位、区域指代、跨分辨率/多窗口/遮挡

  • Trajectory(长程轨迹) :从任务指令到一连串跨页面/跨 App 的操作序列

真实轨迹采集贵,异常场景多。 怎么办?

通义用模拟环境 + 云沙箱 拼出混合数据飞轮:

  • Hard Grounding 合成 :专业软件截图、多窗口高分辨率场景,用 MLLM 生成 + 质量评估回炉

  • DAG 任务合成 :从起点到终点采样路径,组合子指令模板,降低 LLM 幻觉

  • Checkpoint 验证 :每个 DAG 节点定义完成度评估,失败则截断到最后验证点并修复

  • Web-rendering 虚拟环境 :解决 CAPTCHA/反爬中断,支持脚本产出标准成功轨迹

这不是靠少数工程师手搓 demo,而是把数据采集做成流水线。

中文二次传播总结能力点 ▲ 中文账号总结 v3.5 能力点:工具/MCP、Windows、记忆、MRPO(114 赞 / 2.1 万浏览)

2. Unified CoT Synthesis(统一思维合成)

GUI Agent 不能只会"点按钮",还要会:

  • 计划 (长程任务拆解)

  • 记忆 (短期/长期记忆)

  • 工具调用 (MCP、外部 API)

  • 多角色协作 (规划/执行/验证/记录)

通义的做法是:把 Agent 工作流里那些"人类工程师会写的中间结构"规模化地合成进训练数据。

每一步都结构化: 1. 屏幕描述与关键信息抽取 2. 判定动作结果是否符合预期,生成反思与纠错信号 3. 同步生成记忆条目(价格、天气、账号信息等) 4. 若涉及工具调用,把工具定义纳入推理,合成"为何选这个工具"的 reasoning

还有World Modeling :从轨迹中学习"动作后界面会怎么变"(弹窗、焦点切换、字段变化),让模型内化 GUI dynamics。

3. MRPO(多平台强化学习规模化训练)

多平台统一训练有两个坑:

  • 平台差异导致梯度冲突 (mobile/desktop/web 的 action space 差异大)

  • 长程任务 outcome collapse (整组全成或全败,训练信号失效)

MRPO 的关键设计:

  • 在线 rollout buffer :每个任务先采样 kn 条,再均匀抽 n 条组成训练组;若 outcome collapse 且池中存在正负样本,则替换一条,提高有效组概率

  • token-id transport :推理侧环境返回 token IDs,训练侧直接用 token IDs 算 logprob,避免 tokenizer 差异导致 KL/PG 估计不一致

  • 交替多平台优化 :按平台轮转训练,降低跨端梯度冲突

多端混训像多人拉扯同一个方向盘,MRPO 的做法是让它轮流开车 + 给训练信号加防抖机制。

HuggingPapers论文速读 ▲ HuggingPapers 论文速读:端到端多模态能力统一(35 赞 / 4.6k 浏览)

社区炸了:从英文到土耳其语,全球传播

GUI-Owl-1.5 的消息一出,全球 AI 社区都在转发。

机器之心英文账号总结:

"基于 GUI-Owl-1.5 的 Mobile-Agent-v3.5,多尺寸、跨平台、云边协同、20+ benchmark SOTA、三大创新点。"

机器之心英文总结 ▲ 机器之心英文总结(23 赞 / 1.5k 浏览)

甚至土耳其语账号也在复述"统一训练 + 多平台 + 关键分数 + 三个支柱"。

土耳其语长文复述 ▲ 土耳其语长文复述,国际扩散(13 赞 / 958 浏览)

数字 + 三支柱,是最易被跨语言搬运的传播单位。

从 demo 到工程可用,还有多远?

GUI Agent 的现实挑战依然存在:

  • 反爬/CAPTCHA :很多网站会拦截自动化操作

  • 企业内网软件 :权限弹窗、复杂多窗口、多语言输入法

  • 长程任务稳定性 :跨页面/跨 App 的操作链条越长,出错概率越高

通义的虚拟环境与 checkpoint 验证是应对策略,但能否覆盖真实世界的"稀奇古怪场景",仍需实际落地案例。

不过,至少这次他们把"工程问题"摆到台面上了。

数据飞轮、DAG 任务合成、checkpoint 验证、MRPO——这些都是"像软件测试一样可验证"的工程方法,而不是玄学调参。

如何获取?

ModelScope 已经开放全球下载入口:

  • 模型权重:modelscope.cn/models/iic/GUI-Owl-1.5-*

  • GitHub 项目:github.com/X-PLUG/MobileAgent

  • 论文:arXiv:2602.16855

ModelScope补充下载入口 ▲ ModelScope 补充下载入口(3 赞 / 989 浏览)

6 个尺寸,Instruct 和 Thinking 两条线,覆盖桌面、移动、浏览器。

GUI Agent 的"统一多端"时代,来了。

— END —

— END —

原文作者:智能沿界,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!