本文最后更新于 2026年6月6日。
gui-plus-2026-02-26 全说明(阿里云百炼Model Studio专属GUI智能体多模态模型)
一、模型简介
gui-plus-2026-02-26 = 2026.2.26迭代版本的GUI-PLUS,阿里云通义自研界面自动化专用多模态大模型(VL视觉+文本Agent),部署在【阿里云百炼Model Studio】,仅支持API调用、不开源权重。
核心定位:截图+自然语言 → GUI标准化操作指令
- 输入:屏幕截图(图片URL/base64)+自然语言指令(帮我点登录按钮、在输入框填手机号、下拉滚动、勾选复选框)
- 输出:结构化JSON,包含:操作类型
CLICK/TYPE/SCROLL/SELECT、屏幕像素XY坐标、操作元素描述、思考链路,直接对接自动化(Selenium/Playwright/桌面键鼠自动化) - 版本优势(对比基础gui-plus)
- 新增思考/非思考双模式参数可控
- 跨APP、跨桌面/浏览器混合界面识别大幅优化
- 按钮、输入框、弹窗、不规则控件定位精度提升
- 限流规格:RPM=100次/分钟、TPM=540000token/分钟(基础版gui-plus仅80RPM)
典型场景
桌面自动化、浏览器RPA、APP自动化测试、截图生成前端代码、表单自动填写、运维界面巡检
二、调用前置准备
- 进入阿里云→**百炼Model Studio(dashscope)**控制台:https://dashscope.console.aliyun.com/
- 创建API-KEY(
DASHSCOPE_API_KEY,密钥妥善保存) - 开通
gui-plus-2026-02-26模型调用权限(控制台模型搜索名称开通) - 接口域名固定:
https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation
三、三种调用方式(CURL/Python/流式SSE)
入参规则:图片支持:公网HTTP/HTTPS URL 或 base64编码(不带
data:image前缀),content为数组格式(多模态标准)
1、CURL同步调用(最简测试)
export DASHSCOPE_API_KEY="sk-你的密钥"
curl --location "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type:application/json" \
-d '{
"model":"gui-plus-2026-02-26",
"input":{
"messages":[
{
"role":"user",
"content":[
{"type":"image","image":"https://xxx/屏幕截图.png"},
{"type":"text","text":"点击页面右上角登录按钮"}
]
}
]
},
"parameters":{
"result_format":"message",
"thinking_enable":true # true开启思考模式,false精简输出
}
}'
2、Python SDK调用(推荐生产,先安装依赖)
pip install dashscope
import dashscope
from dashscope import Generation
# 配置密钥
dashscope.api_key = "sk-你的密钥"
resp = Generation.call(
model="gui-plus-2026-02-26",
messages=[
{
"role": "user",
"content": [
{"type": "image", "image": "https://xxx/screen.png"},
{"type": "text", "text": "在用户名输入框填入test@xxx.com"}
]
}
],
result_format="message",
thinking_enable=True,
stream=False # 同步关闭流式
)
# 打印结构化操作结果
print(resp.output.choices[0].message.content)
3、SSE流式调用(长任务实时返回,stream=True)
仅需修改stream=True,循环读取返回分片,适合大分辨率长页面解析。
四、返回数据示例(标准结构化)
{
"action": "CLICK",
"x": 1245,
"y": 36,
"element": "右上角登录按钮",
"thought": "页面右上角蓝色登录控件,坐标计算基于图片分辨率1920*1080"
}
五、计费与限制
- 计费:输入(图片+prompt token)+输出token统一计费,百炼控制台查看单价
- 限制:
- 单请求仅支持1张图片,不支持多图批量
- 图片尺寸建议≤4K,超大图建议前端压缩后上传
- 地域:国内通用,海外需对接国际版dashscope
六、补充区分
gui-plus:2025.11基础版本,无思考参数、跨界面弱gui-plus-2026-02-26:2026.2优化迭代版(你使用的型号)qwen3.7-plus:通用多模态,GUI能力弱于本专用gui-plus系列