导读 阿里通义实验室刚刚开源了 GUI-Owl-1.5 和 Mobile-Agent-v3.5——一套能在桌面、手机、浏览器上"原生操作"的 AI Agent 模型家族。6 个尺寸(2B 到 235B),20+ GUI 基准开源 SOTA,OSWorld 56.5、AndroidWorld 71.6、WebArena 48.4。更狠的是:他们用"混合数据飞轮+统一思维合成+多平台强化学习"三板斧,把 GUI Agent 从 demo 推向了工程可用。
一个模型,统治三端
3 月 9 日,ModelScope 官方账号发了条长推,直接把整个 AI 圈炸了。
"通义实验室开源 GUI-Owl-1.5 与 Mobile-Agent-v3.5:面向桌面、移动、浏览器的原生 GUI Agent 模型家族,统一在同一训练范式下。"
什么叫"统一训练范式"?
过去做 GUI 自动化,要么只做手机(Android/iOS),要么只做 PC(Windows/macOS),要么只做浏览器(Web)。每个平台单独训练,动作空间不一样,UI 习惯不一样,交互粒度也不一样。
GUI-Owl-1.5 的野心是:一套模型家族,覆盖所有端 。
不是简单的"多任务学习",而是用 device-conditioned policy(设备条件策略)把桌面、移动、浏览器的 GUI 操作统一到一个训练框架里。模型看到屏幕截图 + 设备类型,就知道该怎么点、怎么滑、怎么输入。
▲ ModelScope 官方长推:6 个模型尺寸,20+ 基准 SOTA(193 赞 / 1.1 万浏览)
6 个尺寸,两条产品线
GUI-Owl-1.5 不是单一模型,而是一个模型家族 :
-
2B / 4B / 8B / 32B Instruct :低延迟,不输出思考链(no CoT),适合边缘设备和实时交互
-
8B / 32B Thinking :更强规划能力,适合复杂长程任务,可以放云端
为什么要分两条线?
Instruct 是"手脚",Thinking 是"大脑"。
小模型跑在手机或 PC 上,快速响应用户操作;大模型在云端做复杂规划和反思。两者通过 Mobile-Agent-v3.5 的多智能体框架协作:规划器、执行器、验证器、记录员,各司其职。
这就是边云协同 的 GUI Agent。
20+ 基准屠榜,数字说话
GUI-Owl-1.5 在 20 多个 GUI 基准上拿下开源 SOTA。
看几个代表性数字:
-
OSWorld-Verified :56.5(32B-Instruct)
-
AndroidWorld :71.6(8B-Thinking)
-
WebArena :48.4(32B-Thinking)
-
ScreenSpot-Pro :80.3(两阶段裁剪优化)
-
OSWorld-MCP :47.6(32B-Instruct,GUI + 工具调用)
-
MobileWorld :46.8(32B-Instruct)
"GUI-Owl-1.5 在 20+ GUI 基准上达到了开源模型 SOTA。" —— arXiv 论文摘要
这些数字不是实验室里调出来的。OSWorld、AndroidWorld、WebArena 都是业内公认的"硬骨头"基准,涉及真实操作系统、真实 App、真实网页。
▲ 研究者直接甩 benchmark 关键分数(36 赞 / 7.3k 浏览)
三板斧:数据飞轮、思维合成、多平台强化学习
GUI Agent 的难点不在 demo,而在数据、训练稳定性、多平台冲突、长程任务 。
通义实验室把这些"脏活累活"提到台前,用三个技术支柱解决:
1. Hybrid Data Flywheel(混合数据飞轮)
GUI Agent 的数据分两类:
-
Grounding(指哪点哪) :屏幕元素定位、区域指代、跨分辨率/多窗口/遮挡
-
Trajectory(长程轨迹) :从任务指令到一连串跨页面/跨 App 的操作序列
真实轨迹采集贵,异常场景多。 怎么办?
通义用模拟环境 + 云沙箱 拼出混合数据飞轮:
-
Hard Grounding 合成 :专业软件截图、多窗口高分辨率场景,用 MLLM 生成 + 质量评估回炉
-
DAG 任务合成 :从起点到终点采样路径,组合子指令模板,降低 LLM 幻觉
-
Checkpoint 验证 :每个 DAG 节点定义完成度评估,失败则截断到最后验证点并修复
-
Web-rendering 虚拟环境 :解决 CAPTCHA/反爬中断,支持脚本产出标准成功轨迹
这不是靠少数工程师手搓 demo,而是把数据采集做成流水线。
▲ 中文账号总结 v3.5 能力点:工具/MCP、Windows、记忆、MRPO(114 赞 / 2.1 万浏览)
2. Unified CoT Synthesis(统一思维合成)
GUI Agent 不能只会"点按钮",还要会:
-
计划 (长程任务拆解)
-
记忆 (短期/长期记忆)
-
工具调用 (MCP、外部 API)
-
多角色协作 (规划/执行/验证/记录)
通义的做法是:把 Agent 工作流里那些"人类工程师会写的中间结构"规模化地合成进训练数据。
每一步都结构化: 1. 屏幕描述与关键信息抽取 2. 判定动作结果是否符合预期,生成反思与纠错信号 3. 同步生成记忆条目(价格、天气、账号信息等) 4. 若涉及工具调用,把工具定义纳入推理,合成"为何选这个工具"的 reasoning
还有World Modeling :从轨迹中学习"动作后界面会怎么变"(弹窗、焦点切换、字段变化),让模型内化 GUI dynamics。
3. MRPO(多平台强化学习规模化训练)
多平台统一训练有两个坑:
-
平台差异导致梯度冲突 (mobile/desktop/web 的 action space 差异大)
-
长程任务 outcome collapse (整组全成或全败,训练信号失效)
MRPO 的关键设计:
-
在线 rollout buffer :每个任务先采样 kn 条,再均匀抽 n 条组成训练组;若 outcome collapse 且池中存在正负样本,则替换一条,提高有效组概率
-
token-id transport :推理侧环境返回 token IDs,训练侧直接用 token IDs 算 logprob,避免 tokenizer 差异导致 KL/PG 估计不一致
-
交替多平台优化 :按平台轮转训练,降低跨端梯度冲突
多端混训像多人拉扯同一个方向盘,MRPO 的做法是让它轮流开车 + 给训练信号加防抖机制。
▲ HuggingPapers 论文速读:端到端多模态能力统一(35 赞 / 4.6k 浏览)
社区炸了:从英文到土耳其语,全球传播
GUI-Owl-1.5 的消息一出,全球 AI 社区都在转发。
机器之心英文账号总结:
"基于 GUI-Owl-1.5 的 Mobile-Agent-v3.5,多尺寸、跨平台、云边协同、20+ benchmark SOTA、三大创新点。"
▲ 机器之心英文总结(23 赞 / 1.5k 浏览)
甚至土耳其语账号也在复述"统一训练 + 多平台 + 关键分数 + 三个支柱"。
▲ 土耳其语长文复述,国际扩散(13 赞 / 958 浏览)
数字 + 三支柱,是最易被跨语言搬运的传播单位。
从 demo 到工程可用,还有多远?
GUI Agent 的现实挑战依然存在:
-
反爬/CAPTCHA :很多网站会拦截自动化操作
-
企业内网软件 :权限弹窗、复杂多窗口、多语言输入法
-
长程任务稳定性 :跨页面/跨 App 的操作链条越长,出错概率越高
通义的虚拟环境与 checkpoint 验证是应对策略,但能否覆盖真实世界的"稀奇古怪场景",仍需实际落地案例。
不过,至少这次他们把"工程问题"摆到台面上了。
数据飞轮、DAG 任务合成、checkpoint 验证、MRPO——这些都是"像软件测试一样可验证"的工程方法,而不是玄学调参。
如何获取?
ModelScope 已经开放全球下载入口:
-
模型权重:modelscope.cn/models/iic/GUI-Owl-1.5-*
-
GitHub 项目:github.com/X-PLUG/MobileAgent
-
论文:arXiv:2602.16855
▲ ModelScope 补充下载入口(3 赞 / 989 浏览)
6 个尺寸,Instruct 和 Thinking 两条线,覆盖桌面、移动、浏览器。
GUI Agent 的"统一多端"时代,来了。
— END —
— END —