一份关于 Qwen-AgentWorld 的实用中文指南。Qwen-AgentWorld 是阿里巴巴 Qwen 面向 AI 智能体的语言世界模型。了解其七大领域设计、训练流水线、AgentWorldBench 结果、SGLang 和 vLLM 部署命令、本地 Transforme...

Qwen-AgentWorld 是 Qwen 团队发布的语言世界模型，用于模拟智能体环境。它不像通用聊天模型那样只回答问题，而是被设计为预测智能体执行某个动作后环境会返回什么。

这使其尤其适用于 AI 智能体研究、模拟强化学习、基准评测，以及围绕终端、软件工程、搜索、MCP、Web、操作系统和 Android 风格环境的本地实验。

本文是原中文文章的轻度改写与翻译版本。文章保留了原有结构、技术流程、命令、表格和核心观点，同时对语言进行了调整，以便更顺畅地进行英文阅读和 SEO 发布。

来源说明：原文发布于 CSDN，并声明遵循 CC BY-SA 4.0 许可证。原始来源：Qwen-AgentWorld完整部署指南：免费开源，性能超GPT-5.4，5分钟跑起来。 核验说明：Qwen 官方页面确认公开发布了 Qwen-AgentWorld-35B-A3B 模型权重和 AgentWorldBench。更大的 Qwen-AgentWorld-397B-A17B 被包含在官方基准测试结果中，但公开模型页面和 GitHub 发布主要指向 35B-A3B 模型权重。

1. 背景：为什么我们需要语言世界模型？

在过去两年里，AI 智能体已迅速从简单的聊天助手发展为能够操作网站、运行终端命令、控制移动应用并完成软件工程任务的工具。

但训练一个强大的智能体成本很高。它通常需要大量真实环境交互，而这会带来几个实际问题：

构建和维护环境非常繁琐。
数据收集速度慢且难以扩展。
真实环境存在风险，尤其是在测试失败场景或注入受控扰动时。

语言世界模型，即 LWM，正是为解决这一问题而构建的。其思路简单但强大：让模型扮演环境的角色。给定一个智能体动作和交互历史，模型预测下一个环境状态。

通过这种设置，智能体可以在模拟环境中进行训练和评估，而不必总是依赖真实系统。

2026 年 6 月 24 日，Qwen 团队发布了 Qwen-AgentWorld，这是一个原生语言世界模型，可在一个模型中统一七个智能体交互领域。配套基准测试 AgentWorldBench 也一同发布。

官方资源：

技术报告：arXiv:2606.24597

GitHub：QwenLM/Qwen-AgentWorld

2. 核心理念：是什么让它成为“原生”世界模型？

这里的原生一词很重要。Qwen-AgentWorld 并不是一个在训练后被调整来模仿环境的通用大语言模型。它的世界建模目标从一开始就被融入到训练过程中。

比较维度	传统方法	Qwen-AgentWorld
训练起点	微调通用大语言模型	从 CPT 开始就将环境建模作为目标
训练过程	通常仅使用 SFT 或 RL	CPT → SFT → RL
环境知识	通过额外数据或适配添加	在训练过程中内化
领域覆盖范围	一个或少数几个领域	一个模型涵盖七个领域

换句话说，Qwen-AgentWorld 不只是一个用提示词包装的通用模型。它是从流水线的较底层开始训练的，用于预测环境的下一个状态。

这使模型能够更有结构地理解环境动态，尤其是在模拟较长的交互轨迹时。

3. 七个领域：一个模型中的文本环境与 GUI 环境

Qwen-AgentWorld 将智能体交互场景分为两大类：基于文本的环境和基于 GUI 的环境。

┌──────────────────────────────────────────┐
│             Qwen-AgentWorld              │
│                                          │
│  文本环境             GUI 环境           │
│  ┌──────────┐       ┌──────────────────┐ │
│  │  MCP     │       │  Web             │ │
│  │  搜索    │       │  操作系统        │ │
│  │  终端    │       │  Android         │ │
│  │  SWE     │       └──────────────────┘ │
│  └──────────┘                            │
└──────────────────────────────────────────┘

领域	类型	描述
MCP	文本	工具调用和模型上下文协议交互
搜索	文本	搜索引擎交互和检索行为
终端	文本	Linux 终端命令执行
SWE	文本

rowspan="1">

软件工程任务，例如代码修复

Web

GUI

浏览器和网页交互

OS

GUI

桌面操作系统交互

Android

GUI

移动应用和 Android 风格 UI 交互

对于这三个 GUI 领域，观测以可渲染代码表示，而不是原始像素帧。这使得基于文本的世界模型能够覆盖视觉环境，而无需直接处理完整的图像序列。

该模型在七个领域中超过 1000 万条真实世界交互轨迹上进行了训练。

4. 三阶段训练流程

Qwen-AgentWorld 使用相互衔接的三阶段训练流程：CPT → SFT → RL。

阶段 1：CPT——注入环境知识

在持续预训练期间，模型从大规模真实环境交互轨迹中学习。此阶段将环境动态嵌入到模型权重中。

原文还提到了一个轮次级信息论损失掩码。其目标是识别哪些对话轮次实际携带环境状态信息，并减少来自不太有用轮次的噪声。

阶段 2：SFT——激活思维链推理

监督微调将下一状态预测转化为思维链式推理模式。

模型不会直接输出预测结果，而是学习在生成下一个观测之前推理状态为什么应该发生变化。

阶段 3：RL——优化仿真保真度

强化学习阶段使用混合奖励信号，包括 GSPO 算法，以提升输出质量。

优化重点包括：

格式正确性
事实准确性

上下文一致性

真实性

整体仿真质量

原文中提到的涌现行为： 据称，Qwen-AgentWorld 表现出自我纠错行为、搜索场景中的信息泄露防范，以及针对某些命令输出预测的多步因果推理能力。

5. 开源模型列表

发布版本	参数量	激活参数量	上下文长度	定位
Qwen-AgentWorld-35B-A3B	35B	3B	256K 个 token	公开、高效的开放模型
Qwen-AgentWorld-397B-A17B	397B	17B	原表中未明确列出	旗舰基准模型
AgentWorldBench	—	—	—	评测基准

35B-A3B 架构细节

基础模型： Qwen3.5-35B-A3B-Base
模型类型： 因果语言模型 / 语言世界模型
架构风格： 混合线性注意力 + MoE
隐藏维度： 2048
层数： 40 层
层布局： 由 Gated DeltaNet、Gated Attention 和 MoE 组件构成的重复分组
专家： 256 个专家

激活专家： 8 个路由专家 + 1 个共享专家

上下文长度： 262,144 个 token

建议最小上下文： 为获得更好的长轨迹模拟质量，建议使用 128K token

Hugging Face 官方文档还指出，该模型兼容 Transformers、vLLM 和 SGLang。

6. 性能比较：AgentWorldBench 结果

AgentWorldBench 从五个维度对每个模型进行评分：格式、事实性、一致性、真实性和质量。分数标准化为 0–100 的量表，分数越高越好。

按总体得分完整排名

60.85

模型	MCP	搜索	终端	SWE	Android	Web	操作系统	总体
Qwen-AgentWorld-397B-A17B	68.24	37.82	57.73	68.49	60.20	50.98	67.89	58.71
GPT-5.4	70.10	37.26	53.69	66.29	60.00	51.80	68.58	58.25
Claude Opus 4.6	69.90	29.30	57.51	64.55	61.74	51.42	70.20	57.80
Claude Opus 4.8	54.93	35.14	59.18	64.10	61.50	54.66	66.62	56.59
Qwen-AgentWorld-35B-A3B	64.79	36.69	53.96	65.63	58.17	49.55	65.92	56.39
Claude Sonnet 4.6	70.00	28.79	56.98	64.52	58.03	50.78	63.17	56.04
Qwen3.5-397B-A17B	68.31	30.81	55.30	64.44	54.90	48.55	54.74
Gemini 3.1 Pro	59.07	30.21	52.47	59.07	61.40	52.83	66.92	54.57
DeepSeek-V4-Pro	63.27	27.61	51.26	59.44	55.17	50.32	63.70	52.97
Qwen3.5-35B-A3B	57.87	25.98	46.13	47.58	53.18	47.10	56.27	47.73

原文要点：

Qwen-AgentWorld-397B-A17B 总分达到 58.71，在所列的 AgentWorldBench 表格中排名第一。
Qwen-AgentWorld-35B-A3B 相比基础模型 Qwen3.5-35B-A3B 提升了 +8.66 分。

实用说明：请将基准测试数字视为来自官方基准测试设置的参考数据。实际结果将取决于硬件、提示词设计、服务框架、上下文长度以及所模拟的环境。

7. 四种应用模式与实验结果

模式 1：可泛化的 OOD 环境扩展

原文描述了使用 Qwen-AgentWorld-397B-A17B 在 4,000 个分布外的 OpenClaw 环境中进行模拟强化学习，然后在新领域中测试零样本泛化能力。

训练方法	Claw-Eval	QwenClawBench
基础 SFT	65.4	47.9
使用通用模型模拟器的模拟强化学习	66.7	47.8
使用 Qwen-AgentWorld 模拟器的模拟强化学习	69.7	55.0
提升	+4.3	+7.1

模式 2：可控模拟——MCP 定向扰动

与标准的真实环境训练相比，受控扰动能更有效地暴露智能体的薄弱点。

配置	工具十项全能	MCPMark
基础 SFT	32.4	21.5
无控制的仿真 RL	31.5	24.6
带控制的仿真 RL	36.1	33.8
提升	+3.7	+12.3

模式 3：虚构世界构建——搜索领域

搜索领域实验使用一个虚构但自洽的搜索世界进行训练，然后在真实搜索任务上评估泛化能力。

配置	WideSearch F1 项	WideSearch F1 行
基础 SFT，35B	34.02	13.72
+ Sim RL 虚构世界	50.31	24.21
提升	+16.29	+10.49

模式 4：智能体基础模型——LWM RL 热身迁移

文章还将 LWM RL 预热描述为一种无需在这些特定任务上进行额外 RL 微调即可提升下游智能体性能的方法。

指标	Terminal-Bench 2.0	SWE-Bench Verified	SWE-Bench Pro	WideSearch F1	Claw-Eval	BFCL v4
基础 SFT	33.25	64.47	42.18	33.38	53.60	62.29
+ LWM RL 预热	39.55	67.86	47.42	46.17	64.88	71.25
提升	+6.30	+3.39	+5.24	+12.79	+11.28	+8.96

亮点：预热数据来自单轮、非智能体轨迹，但这种提升迁移到了更复杂的多轮工具调用智能体任务中。这表明世界建模知识可以迁移到其原始训练格式之外。

8. 快速部署指南

方法 1：使用 SGLang 部署

原文建议使用 SGLang 进行快速服务部署。

pip install sglang

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

启动后，兼容 OpenAI 的 API 端点为：

http://localhost:8000/v1

方法 2：使用 vLLM 部署

pip install vllm

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

官方文档说明：当前 Hugging Face 模型卡也建议在使用 vLLM 时加上 --language-model-only，因为该模型架构包含视觉组件定义，而检查点包含的是语言模型权重。如果 vLLM 初始化失败，请尝试添加该标志。

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

方法 3：使用 Transformers 进行本地推理

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "你是一个语言世界模型，用于模拟 Linux 终端环境。"
                   "给定用户的命令，预测终端输出。"
    },
    {
        "role": "user",
        "content": "操作：execute_bash\n命令：ls -la /home/user/project/"
    }
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

方法 4：通过 OpenAI 兼容 API 调用

该方法适用于通过 SGLang 或 vLLM 部署模型之后。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
    {
        "role": "system",
        "content": "你是一个语言世界模型，用于模拟 Linux 终端环境。"
    },
    {
        "role": "user",
        "content": "操作：execute_bash\n命令：pwd"
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen-AgentWorld-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
)

print(response.choices[0].message.content)

最佳实践

推荐采样：temperature=0.6、top_p=0.95、top_k=20

推荐输出长度：对于大多数长观察，约 `32,768` 个 token

使用仓库 prompts/ 目录中的领域特定系统提示，以获得更好的模拟质量
在可能的情况下，将上下文长度保持在至少 128K；默认模型上下文为 256K

9. AgentWorldBench 评估工作流

如果你想在 AgentWorldBench 上测试自己的世界模型，原文给出了一个三步工作流。

# 1. 克隆评估仓库
git clone https://github.com/QwenLM/Qwen-AgentWorld.git
cd Qwen-AgentWorld

# 2. 下载评估数据集
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench

# 3. 安装依赖
pip install openai

cd eval

# 第 1 步：世界模型推理
python eval.py infer \
    --data-dir ../AgentWorldBench \
    --model-base-url http://localhost:8000/v1 \
    --model-name Qwen/Qwen-AgentWorld-35B-A3B \
    --output-dir ./results

# 第 2 步：LLM 裁判评分。这需要一个 OpenAI API 密钥。
export OPENAI_API_KEY="your-api-key"
python eval.py judge \
    --predictions ./results/predictions.jsonl \
    --judge-base-url https://api.openai.com/v1 \
    --judge-model gpt-5.2-2025-12-11 \
    --output-dir ./results

# 第 3 步：汇总分数
python eval.py score --predictions ./results/judged.jsonl

每个测试样本都包含来自真实环境执行的真实观察数据。该基准从格式、事实性、一致性、真实性和质量等方面评估世界建模能力。

10. 微调建议

如果你想针对特定领域定制 Qwen-AgentWorld，原文推荐了三种常见的微调框架。

框架	优势	适用场景
ms-swift	与 ModelScope 高度集成	快速实验和阿里巴巴生态系统工作流
LLaMA-Factory	活跃的社区和广泛的训练策略支持	实际工程部署
Unsloth	强大的内存优化	资源受限的微调

11. 来源说明与图像处理

原文包含多张与 Qwen-AgentWorld 领域和基准测试结果相关的图片。这些图片已保留在相关章节中。

根据发布要求，已移除 CSDN 平台图标、推广模块、作者订阅区块、二维码、打赏按钮以及无关的推荐图片。

常见问题

什么是 Qwen-AgentWorld？

Qwen-AgentWorld 是 Qwen 团队推出的语言世界模型。它会预测智能体执行动作后的下一个环境状态，因此可用于智能体仿真、训练和评估。

Qwen-AgentWorld 和普通聊天模型一样吗？

不一样。普通聊天模型主要针对对话和指令遵循进行优化。Qwen-AgentWorld 被训练为环境模拟器，因此其主要使用场景是在智能体交互环境中预测观测结果。

哪个 Qwen-AgentWorld 模型是公开可用的？

官方页面列出 Qwen-AgentWorld-35B-A3B 作为公开发布的模型权重。AgentWorldBench 也作为评估基准提供。更大的 397B 模型出现在基准测试表中，但公开模型发布主要指向 35B-A3B 版本。

Qwen-AgentWorld 可以使用 vLLM 部署吗？

是的。Hugging Face 模型卡包含一个 vLLM 服务示例。如果遇到初始化问题，官方模型卡建议添加 --language-model-only，因为该检查点包含语言模型权重。

Qwen-AgentWorld 可以使用 SGLang 部署吗？

可以。SGLang 是推荐的服务选项之一，并且可以暴露一个兼容 OpenAI 的 API 端点。随后即可通过本地 API 请求调用该模型。

为什么 Qwen-AgentWorld 需要长上下文窗口？

智能体环境模拟通常依赖较长的交互历史。较短的上下文窗口可能会丢失重要的状态信息，因此官方指南建议在可能的情况下至少保留 128K 个 token。

AgentWorldBench 用于什么？

AgentWorldBench 是随 Qwen-AgentWorld 一同发布的基准测试。它使用格式、事实性、一致性、真实性和质量等维度，对七个领域中的语言世界模型进行评估。

Qwen-AgentWorld 适合用于生产环境吗？

它可用于研究、评估、模拟和内部实验。对于生产系统，你仍然需要评估延迟、硬件成本、安全性、提示词可靠性，以及模拟结果是否足够贴近你的真实环境。