Qwen-AgentWorld 是 Qwen 团队发布的语言世界模型,用于模拟智能体环境。它不像通用聊天模型那样只回答问题,而是被设计为预测智能体执行某个动作后环境会返回什么。
这使其尤其适用于 AI 智能体研究、模拟强化学习、基准评测,以及围绕终端、软件工程、搜索、MCP、Web、操作系统和 Android 风格环境的本地实验。
本文是原中文文章的轻度改写与翻译版本。文章保留了原有结构、技术流程、命令、表格和核心观点,同时对语言进行了调整,以便更顺畅地进行英文阅读和 SEO 发布。
来源说明:原文发布于 CSDN,并声明遵循 CC BY-SA 4.0 许可证。原始来源:Qwen-AgentWorld完整部署指南:免费开源,性能超GPT-5.4,5分钟跑起来。 核验说明:Qwen 官方页面确认公开发布了
Qwen-AgentWorld-35B-A3B模型权重和AgentWorldBench。更大的Qwen-AgentWorld-397B-A17B被包含在官方基准测试结果中,但公开模型页面和 GitHub 发布主要指向 35B-A3B 模型权重。
1. 背景:为什么我们需要语言世界模型?
在过去两年里,AI 智能体已迅速从简单的聊天助手发展为能够操作网站、运行终端命令、控制移动应用并完成软件工程任务的工具。
但训练一个强大的智能体成本很高。它通常需要大量真实环境交互,而这会带来几个实际问题:
构建和维护环境非常繁琐。
数据收集速度慢且难以扩展。
真实环境存在风险,尤其是在测试失败场景或注入受控扰动时。
语言世界模型,即 LWM,正是为解决这一问题而构建的。其思路简单但强大:让模型扮演环境的角色。给定一个智能体动作和交互历史,模型预测下一个环境状态。
通过这种设置,智能体可以在模拟环境中进行训练和评估,而不必总是依赖真实系统。
2026 年 6 月 24 日,Qwen 团队发布了 Qwen-AgentWorld,这是一个原生语言世界模型,可在一个模型中统一七个智能体交互领域。配套基准测试 AgentWorldBench 也一同发布。
官方资源:
GitHub:QwenLM/Qwen-AgentWorld
2. 核心理念:是什么让它成为“原生”世界模型?
这里的 原生 一词很重要。Qwen-AgentWorld 并不是一个在训练后被调整来模仿环境的通用大语言模型。它的世界建模目标从一开始就被融入到训练过程中。
比较维度 | 传统方法 | Qwen-AgentWorld |
训练起点 | 微调通用大语言模型 | 从 CPT 开始就将环境建模作为目标 |
训练过程 | 通常仅使用 SFT 或 RL | CPT → SFT → RL |
环境知识 | 通过额外数据或适配添加 | 在训练过程中内化 |
领域覆盖范围 | 一个或少数几个领域 | 一个模型涵盖七个领域 |
换句话说,Qwen-AgentWorld 不只是一个用提示词包装的通用模型。它是从流水线的较底层开始训练的,用于预测环境的下一个状态。
这使模型能够更有结构地理解环境动态,尤其是在模拟较长的交互轨迹时。
3. 七个领域:一个模型中的文本环境与 GUI 环境
Qwen-AgentWorld 将智能体交互场景分为两大类:基于文本的环境和基于 GUI 的环境。
┌──────────────────────────────────────────┐
│ Qwen-AgentWorld │
│ │
│ 文本环境 GUI 环境 │
│ ┌──────────┐ ┌──────────────────┐ │
│ │ MCP │ │ Web │ │
│ │ 搜索 │ │ 操作系统 │ │
│ │ 终端 │ │ Android │ │
│ │ SWE │ └──────────────────┘ │
│ └──────────┘ │
└──────────────────────────────────────────┘领域 | 类型 | 描述 |
MCP | 文本 | 工具调用和模型上下文协议交互 |
搜索 | 文本 | 搜索引擎交互和检索行为 |
终端 | 文本 | Linux 终端命令执行 |
SWE | 文本 |
软件工程任务,例如代码修复
Web
GUI
浏览器和网页交互
OS
GUI
桌面操作系统交互
Android
GUI
移动应用和 Android 风格 UI 交互
对于这三个 GUI 领域,观测以可渲染代码表示,而不是原始像素帧。这使得基于文本的世界模型能够覆盖视觉环境,而无需直接处理完整的图像序列。
该模型在七个领域中超过 1000 万条真实世界交互轨迹上进行了训练。
4. 三阶段训练流程
Qwen-AgentWorld 使用相互衔接的三阶段训练流程:CPT → SFT → RL。
阶段 1:CPT——注入环境知识
在持续预训练期间,模型从大规模真实环境交互轨迹中学习。此阶段将环境动态嵌入到模型权重中。
原文还提到了一个轮次级信息论损失掩码。其目标是识别哪些对话轮次实际携带环境状态信息,并减少来自不太有用轮次的噪声。
阶段 2:SFT——激活思维链推理
监督微调将下一状态预测转化为思维链式推理模式。
模型不会直接输出预测结果,而是学习在生成下一个观测之前推理状态为什么应该发生变化。
阶段 3:RL——优化仿真保真度
强化学习阶段使用混合奖励信号,包括 GSPO 算法,以提升输出质量。
优化重点包括:
格式正确性
事实准确性
上下文一致性
真实性
整体仿真质量
原文中提到的涌现行为: 据称,Qwen-AgentWorld 表现出自我纠错行为、搜索场景中的信息泄露防范,以及针对某些命令输出预测的多步因果推理能力。
5. 开源模型列表
发布版本 | 参数量 | 激活参数量 | 上下文长度 | 定位 |
Qwen-AgentWorld-35B-A3B | 35B | 3B | 256K 个 token | 公开、高效的开放模型 |
Qwen-AgentWorld-397B-A17B | 397B | 17B | 原表中未明确列出 | 旗舰基准模型 |
AgentWorldBench | — | — | — | 评测基准 |
35B-A3B 架构细节
基础模型: Qwen3.5-35B-A3B-Base
模型类型: 因果语言模型 / 语言世界模型
架构风格: 混合线性注意力 + MoE
隐藏维度: 2048
层数: 40 层
层布局: 由 Gated DeltaNet、Gated Attention 和 MoE 组件构成的重复分组
专家: 256 个专家
激活专家: 8 个路由专家 + 1 个共享专家
上下文长度: 262,144 个 token
建议最小上下文: 为获得更好的长轨迹模拟质量,建议使用 128K token
Hugging Face 官方文档还指出,该模型兼容 Transformers、vLLM 和 SGLang。
6. 性能比较:AgentWorldBench 结果
AgentWorldBench 从五个维度对每个模型进行评分:格式、事实性、一致性、真实性和 质量。分数标准化为 0–100 的量表,分数越高越好。
按总体得分完整排名
模型 | MCP | 搜索 | 终端 | SWE | Android | Web | 操作系统 | 总体 |
Qwen-AgentWorld-397B-A17B | 68.24 | 37.82 | 57.73 | 68.49 | 60.20 | 50.98 | 67.89 | 58.71 |
GPT-5.4 | 70.10 | 37.26 | 53.69 | 66.29 | 60.00 | 51.80 | 68.58 | 58.25 |
Claude Opus 4.6 | 69.90 | 29.30 | 57.51 | 64.55 | 61.74 | 51.42 | 70.20 | 57.80 |
Claude Opus 4.8 | 54.93 | 35.14 | 59.18 | 64.10 | 61.50 | 54.66 | 66.62 | 56.59 |
Qwen-AgentWorld-35B-A3B | 64.79 | 36.69 | 53.96 | 65.63 | 58.17 | 49.55 | 65.92 | 56.39 |
Claude Sonnet 4.6 | 70.00 | 28.79 | 56.98 | 64.52 | 58.03 | 50.78 | 63.17 | 56.04 |
Qwen3.5-397B-A17B | 68.31 | 30.81 | 55.30 | 64.44 | 54.90 | 48.55 | 54.74 | |
Gemini 3.1 Pro | 59.07 | 30.21 | 52.47 | 59.07 | 61.40 | 52.83 | 66.92 | 54.57 |
DeepSeek-V4-Pro | 63.27 | 27.61 | 51.26 | 59.44 | 55.17 | 50.32 | 63.70 | 52.97 |
Qwen3.5-35B-A3B | 57.87 | 25.98 | 46.13 | 47.58 | 53.18 | 47.10 | 56.27 | 47.73 |
原文要点:
Qwen-AgentWorld-397B-A17B总分达到 58.71,在所列的 AgentWorldBench 表格中排名第一。Qwen-AgentWorld-35B-A3B相比基础模型Qwen3.5-35B-A3B提升了 +8.66 分。
实用说明:请将基准测试数字视为来自官方基准测试设置的参考数据。实际结果将取决于硬件、提示词设计、服务框架、上下文长度以及所模拟的环境。
7. 四种应用模式与实验结果
模式 1:可泛化的 OOD 环境扩展
原文描述了使用 Qwen-AgentWorld-397B-A17B 在 4,000 个分布外的 OpenClaw 环境中进行模拟强化学习,然后在新领域中测试零样本泛化能力。
训练方法 | Claw-Eval | QwenClawBench |
基础 SFT | 65.4 | 47.9 |
使用通用模型模拟器的模拟强化学习 | 66.7 | 47.8 |
使用 Qwen-AgentWorld 模拟器的模拟强化学习 | 69.7 | 55.0 |
提升 | +4.3 | +7.1 |
模式 2:可控模拟——MCP 定向扰动
与标准的真实环境训练相比,受控扰动能更有效地暴露智能体的薄弱点。
配置 | 工具十项全能 | MCPMark |
基础 SFT | 32.4 | 21.5 |
无控制的仿真 RL | 31.5 | 24.6 |
带控制的仿真 RL | 36.1 | 33.8 |
提升 | +3.7 | +12.3 |
模式 3:虚构世界构建——搜索领域
搜索领域实验使用一个虚构但自洽的搜索世界进行训练,然后在真实搜索任务上评估泛化能力。
配置 | WideSearch F1 项 | WideSearch F1 行 |
基础 SFT,35B | 34.02 | 13.72 |
+ Sim RL 虚构世界 | 50.31 | 24.21 |
提升 | +16.29 | +10.49 |
模式 4:智能体基础模型——LWM RL 热身迁移
文章还将 LWM RL 预热描述为一种无需在这些特定任务上进行额外 RL 微调即可提升下游智能体性能的方法。
指标 | Terminal-Bench 2.0 | SWE-Bench Verified | SWE-Bench Pro | WideSearch F1 | Claw-Eval | BFCL v4 |
基础 SFT | 33.25 | 64.47 | 42.18 | 33.38 | 53.60 | 62.29 |
+ LWM RL 预热 | 39.55 | 67.86 | 47.42 | 46.17 | 64.88 | 71.25 |
提升 | +6.30 | +3.39 | +5.24 | +12.79 | +11.28 | +8.96 |
亮点:预热数据来自单轮、非智能体轨迹,但这种提升迁移到了更复杂的多轮工具调用智能体任务中。这表明世界建模知识可以迁移到其原始训练格式之外。
8. 快速部署指南
方法 1:使用 SGLang 部署
原文建议使用 SGLang 进行快速服务部署。
pip install sglangpython -m sglang.launch_server \
--model-path Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tp-size 4 \
--context-length 262144 \
--reasoning-parser qwen3启动后,兼容 OpenAI 的 API 端点为:
http://localhost:8000/v1方法 2:使用 vLLM 部署
pip install vllmvllm serve Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--trust-remote-code官方文档说明:当前 Hugging Face 模型卡也建议在使用 vLLM 时加上
--language-model-only,因为该模型架构包含视觉组件定义,而检查点包含的是语言模型权重。如果 vLLM 初始化失败,请尝试添加该标志。
vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only \
--trust-remote-code方法 3:使用 Transformers 进行本地推理
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
messages = [
{
"role": "system",
"content": "你是一个语言世界模型,用于模拟 Linux 终端环境。"
"给定用户的命令,预测终端输出。"
},
{
"role": "user",
"content": "操作:execute_bash\n命令:ls -la /home/user/project/"
}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)方法 4:通过 OpenAI 兼容 API 调用
该方法适用于通过 SGLang 或 vLLM 部署模型之后。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
messages = [
{
"role": "system",
"content": "你是一个语言世界模型,用于模拟 Linux 终端环境。"
},
{
"role": "user",
"content": "操作:execute_bash\n命令:pwd"
}
]
response = client.chat.completions.create(
model="Qwen/Qwen-AgentWorld-35B-A3B",
messages=messages,
max_tokens=32768,
temperature=0.6,
)
print(response.choices[0].message.content)最佳实践
推荐采样:
temperature=0.6、top_p=0.95、top_k=20
推荐输出长度:对于大多数长观察,约 32,768 个 token
使用仓库
prompts/目录中的领域特定系统提示,以获得更好的模拟质量在可能的情况下,将上下文长度保持在至少
128K;默认模型上下文为256K
9. AgentWorldBench 评估工作流
如果你想在 AgentWorldBench 上测试自己的世界模型,原文给出了一个三步工作流。
# 1. 克隆评估仓库
git clone https://github.com/QwenLM/Qwen-AgentWorld.git
cd Qwen-AgentWorld
# 2. 下载评估数据集
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench
# 3. 安装依赖
pip install openai
cd eval
# 第 1 步:世界模型推理
python eval.py infer \
--data-dir ../AgentWorldBench \
--model-base-url http://localhost:8000/v1 \
--model-name Qwen/Qwen-AgentWorld-35B-A3B \
--output-dir ./results
# 第 2 步:LLM 裁判评分。这需要一个 OpenAI API 密钥。
export OPENAI_API_KEY="your-api-key"
python eval.py judge \
--predictions ./results/predictions.jsonl \
--judge-base-url https://api.openai.com/v1 \
--judge-model gpt-5.2-2025-12-11 \
--output-dir ./results
# 第 3 步:汇总分数
python eval.py score --predictions ./results/judged.jsonl每个测试样本都包含来自真实环境执行的真实观察数据。该基准从格式、事实性、一致性、真实性和质量等方面评估世界建模能力。
10. 微调建议
如果你想针对特定领域定制 Qwen-AgentWorld,原文推荐了三种常见的微调框架。
框架 | 优势 | 适用场景 |
与 ModelScope 高度集成 | 快速实验和阿里巴巴生态系统工作流 | |
活跃的社区和广泛的训练策略支持 | 实际工程部署 | |
强大的内存优化 | 资源受限的微调 |
11. 来源说明与图像处理
原文包含多张与 Qwen-AgentWorld 领域和基准测试结果相关的图片。这些图片已保留在相关章节中。
根据发布要求,已移除 CSDN 平台图标、推广模块、作者订阅区块、二维码、打赏按钮以及无关的推荐图片。
常见问题
什么是 Qwen-AgentWorld?
Qwen-AgentWorld 是 Qwen 团队推出的语言世界模型。它会预测智能体执行动作后的下一个环境状态,因此可用于智能体仿真、训练和评估。
Qwen-AgentWorld 和普通聊天模型一样吗?
不一样。普通聊天模型主要针对对话和指令遵循进行优化。Qwen-AgentWorld 被训练为环境模拟器,因此其主要使用场景是在智能体交互环境中预测观测结果。
哪个 Qwen-AgentWorld 模型是公开可用的?
官方页面列出 Qwen-AgentWorld-35B-A3B 作为公开发布的模型权重。AgentWorldBench 也作为评估基准提供。更大的 397B 模型出现在基准测试表中,但公开模型发布主要指向 35B-A3B 版本。
Qwen-AgentWorld 可以使用 vLLM 部署吗?
是的。Hugging Face 模型卡包含一个 vLLM 服务示例。如果遇到初始化问题,官方模型卡建议添加 --language-model-only,因为该检查点包含语言模型权重。
Qwen-AgentWorld 可以使用 SGLang 部署吗?
可以。SGLang 是推荐的服务选项之一,并且可以暴露一个兼容 OpenAI 的 API 端点。随后即可通过本地 API 请求调用该模型。
为什么 Qwen-AgentWorld 需要长上下文窗口?
智能体环境模拟通常依赖较长的交互历史。较短的上下文窗口可能会丢失重要的状态信息,因此官方指南建议在可能的情况下至少保留 128K 个 token。
AgentWorldBench 用于什么?
AgentWorldBench 是随 Qwen-AgentWorld 一同发布的基准测试。它使用格式、事实性、一致性、真实性和质量等维度,对七个领域中的语言世界模型进行评估。
Qwen-AgentWorld 适合用于生产环境吗?
它可用于研究、评估、模拟和内部实验。对于生产系统,你仍然需要评估延迟、硬件成本、安全性、提示词可靠性,以及模拟结果是否足够贴近你的真实环境。
相关工具
Qwen-AgentWorld GitHub:Qwen-AgentWorld 代码、提示词和评估工作流的官方仓库。
Hugging Face 上的 Qwen-AgentWorld-35B-A3B:公开 35B-A3B 权重的官方模型页面。
AgentWorldBench:用于评估语言世界模型的官方基准数据集。
SGLang:用于大型语言模型的快速服务框架。
vLLM:用于服务 LLM 的高吞吐量推理引擎。
Transformers:用于本地模型加载和推理的 Hugging Face 库。
OpenAI Python SDK:可调用兼容 OpenAI 的本地模型服务器的 Python 客户端。
ms-swift:ModelScope 用于 LLM 工作流的训练和微调框架。
相关链接
Qwen-AgentWorld 技术报告:介绍该模型、基准测试和训练设置的官方 arXiv 论文。
Qwen-AgentWorld 官方博客:Qwen 针对该项目的官方发布文章。
Qwen-AgentWorld GitHub 仓库:提示词、评估脚本和项目文档的主要来源。
Qwen-AgentWorld-35B-A3B 模型卡:包含部署和推理示例的官方 Hugging Face 页面。
AgentWorldBench 数据集:用于模型评估的官方基准数据集。
SGLang 文档:使用 SGLang 提供 LLM 服务的文档。
vLLM 文档:关于高吞吐量 LLM 推理和 OpenAI 兼容服务的文档。
LLaMA-Factory:用于 LLM 微调和部署实验的热门开源框架。



