炸了阿里开源gui-owl-15一个模型统治桌面手机浏览器20基准屠榜

导读阿里通义实验室刚刚开源了 GUI-Owl-1.5 和 Mobile-Agent-v3.5——一套能在桌面、手机、浏览器上"原生操作"的 AI Agent 模型家族。6 个尺寸（2B 到 235B），20+ GUI 基准开源 SOTA，OSWorld 56.5、AndroidWorld 71.6、WebArena 48.4。更狠的是：他们用"混合数据飞轮+统一思维合成+多平台强化学习"三板斧，把 GUI Agent 从 demo 推向了工程可用。

一个模型，统治三端

3 月 9 日，ModelScope 官方账号发了条长推，直接把整个 AI 圈炸了。

"通义实验室开源 GUI-Owl-1.5 与 Mobile-Agent-v3.5：面向桌面、移动、浏览器的原生 GUI Agent 模型家族，统一在同一训练范式下。"

什么叫"统一训练范式"？

过去做 GUI 自动化，要么只做手机（Android/iOS），要么只做 PC（Windows/macOS），要么只做浏览器（Web）。每个平台单独训练，动作空间不一样，UI 习惯不一样，交互粒度也不一样。

GUI-Owl-1.5 的野心是：一套模型家族，覆盖所有端 。

不是简单的"多任务学习"，而是用 device-conditioned policy（设备条件策略）把桌面、移动、浏览器的 GUI 操作统一到一个训练框架里。模型看到屏幕截图 + 设备类型，就知道该怎么点、怎么滑、怎么输入。

ModelScope官方长推 ▲ ModelScope 官方长推：6 个模型尺寸，20+ 基准 SOTA（193 赞 / 1.1 万浏览）

6 个尺寸，两条产品线

GUI-Owl-1.5 不是单一模型，而是一个模型家族 ：

2B / 4B / 8B / 32B Instruct ：低延迟，不输出思考链（no CoT），适合边缘设备和实时交互
8B / 32B Thinking ：更强规划能力，适合复杂长程任务，可以放云端

为什么要分两条线？

Instruct 是"手脚"，Thinking 是"大脑"。

小模型跑在手机或 PC 上，快速响应用户操作；大模型在云端做复杂规划和反思。两者通过 Mobile-Agent-v3.5 的多智能体框架协作：规划器、执行器、验证器、记录员，各司其职。

这就是边云协同 的 GUI Agent。

20+ 基准屠榜，数字说话

GUI-Owl-1.5 在 20 多个 GUI 基准上拿下开源 SOTA。

看几个代表性数字：

OSWorld-Verified ：56.5（32B-Instruct）
AndroidWorld ：71.6（8B-Thinking）
WebArena ：48.4（32B-Thinking）
ScreenSpot-Pro ：80.3（两阶段裁剪优化）
OSWorld-MCP ：47.6（32B-Instruct，GUI + 工具调用）
MobileWorld ：46.8（32B-Instruct）

"GUI-Owl-1.5 在 20+ GUI 基准上达到了开源模型 SOTA。" —— arXiv 论文摘要

这些数字不是实验室里调出来的。OSWorld、AndroidWorld、WebArena 都是业内公认的"硬骨头"基准，涉及真实操作系统、真实 App、真实网页。

研究者账号甩数字 ▲ 研究者直接甩 benchmark 关键分数（36 赞 / 7.3k 浏览）

三板斧：数据飞轮、思维合成、多平台强化学习

GUI Agent 的难点不在 demo，而在数据、训练稳定性、多平台冲突、长程任务 。

通义实验室把这些"脏活累活"提到台前，用三个技术支柱解决：

1. Hybrid Data Flywheel（混合数据飞轮）

GUI Agent 的数据分两类：

Grounding（指哪点哪） ：屏幕元素定位、区域指代、跨分辨率/多窗口/遮挡
Trajectory（长程轨迹） ：从任务指令到一连串跨页面/跨 App 的操作序列

真实轨迹采集贵，异常场景多。 怎么办？

通义用模拟环境 + 云沙箱 拼出混合数据飞轮：

Hard Grounding 合成 ：专业软件截图、多窗口高分辨率场景，用 MLLM 生成 + 质量评估回炉
DAG 任务合成 ：从起点到终点采样路径，组合子指令模板，降低 LLM 幻觉
Checkpoint 验证 ：每个 DAG 节点定义完成度评估，失败则截断到最后验证点并修复
Web-rendering 虚拟环境 ：解决 CAPTCHA/反爬中断，支持脚本产出标准成功轨迹

这不是靠少数工程师手搓 demo，而是把数据采集做成流水线。

中文二次传播总结能力点 ▲ 中文账号总结 v3.5 能力点：工具/MCP、Windows、记忆、MRPO（114 赞 / 2.1 万浏览）

2. Unified CoT Synthesis（统一思维合成）

GUI Agent 不能只会"点按钮"，还要会：

计划（长程任务拆解）
记忆（短期/长期记忆）
工具调用 （MCP、外部 API）
多角色协作 （规划/执行/验证/记录）

通义的做法是：把 Agent 工作流里那些"人类工程师会写的中间结构"规模化地合成进训练数据。

每一步都结构化： 1. 屏幕描述与关键信息抽取 2. 判定动作结果是否符合预期，生成反思与纠错信号 3. 同步生成记忆条目（价格、天气、账号信息等） 4. 若涉及工具调用，把工具定义纳入推理，合成"为何选这个工具"的 reasoning

还有World Modeling ：从轨迹中学习"动作后界面会怎么变"（弹窗、焦点切换、字段变化），让模型内化 GUI dynamics。

3. MRPO（多平台强化学习规模化训练）

多平台统一训练有两个坑：

平台差异导致梯度冲突 （mobile/desktop/web 的 action space 差异大）
长程任务 outcome collapse （整组全成或全败，训练信号失效）

MRPO 的关键设计：

在线 rollout buffer ：每个任务先采样 kn 条，再均匀抽 n 条组成训练组；若 outcome collapse 且池中存在正负样本，则替换一条，提高有效组概率
token-id transport ：推理侧环境返回 token IDs，训练侧直接用 token IDs 算 logprob，避免 tokenizer 差异导致 KL/PG 估计不一致
交替多平台优化 ：按平台轮转训练，降低跨端梯度冲突

多端混训像多人拉扯同一个方向盘，MRPO 的做法是让它轮流开车 + 给训练信号加防抖机制。

HuggingPapers论文速读 ▲ HuggingPapers 论文速读：端到端多模态能力统一（35 赞 / 4.6k 浏览）

社区炸了：从英文到土耳其语，全球传播

GUI-Owl-1.5 的消息一出，全球 AI 社区都在转发。

机器之心英文账号总结：

"基于 GUI-Owl-1.5 的 Mobile-Agent-v3.5，多尺寸、跨平台、云边协同、20+ benchmark SOTA、三大创新点。"

▲ 机器之心英文总结（23 赞 / 1.5k 浏览）

甚至土耳其语账号也在复述"统一训练 + 多平台 + 关键分数 + 三个支柱"。

▲ 土耳其语长文复述，国际扩散（13 赞 / 958 浏览）

数字 + 三支柱，是最易被跨语言搬运的传播单位。

从 demo 到工程可用，还有多远？

GUI Agent 的现实挑战依然存在：

反爬/CAPTCHA ：很多网站会拦截自动化操作
企业内网软件 ：权限弹窗、复杂多窗口、多语言输入法
长程任务稳定性 ：跨页面/跨 App 的操作链条越长，出错概率越高

通义的虚拟环境与 checkpoint 验证是应对策略，但能否覆盖真实世界的"稀奇古怪场景"，仍需实际落地案例。

不过，至少这次他们把"工程问题"摆到台面上了。

数据飞轮、DAG 任务合成、checkpoint 验证、MRPO——这些都是"像软件测试一样可验证"的工程方法，而不是玄学调参。

如何获取？

ModelScope 已经开放全球下载入口：

模型权重：modelscope.cn/models/iic/GUI-Owl-1.5-*
GitHub 项目：github.com/X-PLUG/MobileAgent
论文：arXiv:2602.16855

ModelScope补充下载入口 ▲ ModelScope 补充下载入口（3 赞 / 989 浏览）

6 个尺寸，Instruct 和 Thinking 两条线，覆盖桌面、移动、浏览器。

GUI Agent 的"统一多端"时代，来了。

— END —

原文作者：智能沿界，文章仅供学习，如有侵权请留言，我会立即删除，谢谢！

菜单

分享

炸了阿里开源gui-owl-15一个模型统治桌面手机浏览器20基准屠榜

一个模型，统治三端

6 个尺寸，两条产品线

20+ 基准屠榜，数字说话

三板斧：数据飞轮、思维合成、多平台强化学习

社区炸了：从英文到土耳其语，全球传播

从 demo 到工程可用，还有多远？

如何获取？

一文看懂座舱智驾与舱驾一体芯片有什么区别

example-domain

example-domain

example-domain

小米开年首秀34分钟锁单15万台新一代su7还能继续赢吗

马斯克确认4-月预计会有全新车型发布

詹锟讲理想下一代自动驾驶基础模型mindvla-o1图文版压缩版视频版

詹锟讲理想下一代自动驾驶基础模型mindvla-o1图文版压缩版视频版

刚直播完关于小鹏第二代vla给鹏友们划下重点

黄仁勋gtc演讲全文推理时代到来2027营收至少万亿美元龙虾就是新操作系统