阿里云的 gui-plus-2026-02-26 是什么模型,怎么调用

6 次阅读

本文最后更新于 2026年6月6日。

gui-plus-2026-02-26 全说明(阿里云百炼Model Studio专属GUI智能体多模态模型)

一、模型简介

gui-plus-2026-02-26 = 2026.2.26迭代版本的GUI-PLUS,阿里云通义自研界面自动化专用多模态大模型(VL视觉+文本Agent),部署在【阿里云百炼Model Studio】,仅支持API调用、不开源权重。

核心定位:截图+自然语言 → GUI标准化操作指令

  1. 输入:屏幕截图(图片URL/base64)+自然语言指令(帮我点登录按钮、在输入框填手机号、下拉滚动、勾选复选框)
  2. 输出:结构化JSON,包含:操作类型CLICK/TYPE/SCROLL/SELECT、屏幕像素XY坐标、操作元素描述、思考链路,直接对接自动化(Selenium/Playwright/桌面键鼠自动化)
  3. 版本优势(对比基础gui-plus)
  • 新增思考/非思考双模式参数可控
  • 跨APP、跨桌面/浏览器混合界面识别大幅优化
  • 按钮、输入框、弹窗、不规则控件定位精度提升
  • 限流规格:RPM=100次/分钟、TPM=540000token/分钟(基础版gui-plus仅80RPM)

典型场景

桌面自动化、浏览器RPA、APP自动化测试、截图生成前端代码、表单自动填写、运维界面巡检

二、调用前置准备

  1. 进入阿里云→**百炼Model Studio(dashscope)**控制台:https://dashscope.console.aliyun.com/
  2. 创建API-KEY(DASHSCOPE_API_KEY,密钥妥善保存)
  3. 开通gui-plus-2026-02-26模型调用权限(控制台模型搜索名称开通)
  4. 接口域名固定:https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation

三、三种调用方式(CURL/Python/流式SSE)

入参规则:图片支持:公网HTTP/HTTPS URL 或 base64编码(不带data:image前缀),content为数组格式(多模态标准)

1、CURL同步调用(最简测试)

export DASHSCOPE_API_KEY="sk-你的密钥"
curl --location "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type:application/json" \
-d '{
    "model":"gui-plus-2026-02-26",
    "input":{
        "messages":[
            {
                "role":"user",
                "content":[
                    {"type":"image","image":"https://xxx/屏幕截图.png"},
                    {"type":"text","text":"点击页面右上角登录按钮"}
                ]
            }
        ]
    },
    "parameters":{
        "result_format":"message",
        "thinking_enable":true  # true开启思考模式,false精简输出
    }
}'

2、Python SDK调用(推荐生产,先安装依赖)

pip install dashscope
import dashscope
from dashscope import Generation

# 配置密钥
dashscope.api_key = "sk-你的密钥"

resp = Generation.call(
    model="gui-plus-2026-02-26",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "image", "image": "https://xxx/screen.png"},
                {"type": "text", "text": "在用户名输入框填入test@xxx.com"}
            ]
        }
    ],
    result_format="message",
    thinking_enable=True,
    stream=False # 同步关闭流式
)
# 打印结构化操作结果
print(resp.output.choices[0].message.content)

3、SSE流式调用(长任务实时返回,stream=True)

仅需修改stream=True,循环读取返回分片,适合大分辨率长页面解析。

四、返回数据示例(标准结构化)

{
  "action": "CLICK",
  "x": 1245,
  "y": 36,
  "element": "右上角登录按钮",
  "thought": "页面右上角蓝色登录控件,坐标计算基于图片分辨率1920*1080"
}

五、计费与限制

  1. 计费:输入(图片+prompt token)+输出token统一计费,百炼控制台查看单价
  2. 限制
    • 单请求仅支持1张图片,不支持多图批量
    • 图片尺寸建议≤4K,超大图建议前端压缩后上传
    • 地域:国内通用,海外需对接国际版dashscope

六、补充区分

  • gui-plus:2025.11基础版本,无思考参数、跨界面弱
  • gui-plus-2026-02-26:2026.2优化迭代版(你使用的型号)
  • qwen3.7-plus:通用多模态,GUI能力弱于本专用gui-plus系列