AIエージェント向けのAlibaba Qwenの言語ワールドモデル、Qwen-AgentWorldの実践的な英語ガイド。7つのドメインからなる設計、トレーニングパイプライン、AgentWorldBenchの結果、SGLangおよびvLLMのデプロイメントコマンド、ローカルでのTr...

Qwen-AgentWorldは、エージェント環境のシミュレーションを目的としてQwenチームが公開した言語ワールドモデルです。一般的なチャットモデルのように質問に答えるだけでなく、エージェントが行動を取った後に環境が何を返すかを予測するように設計されています。

そのため、AIエージェント研究、シミュレーションによる強化学習、ベンチマーク評価、そしてターミナル、ソフトウェアエンジニアリング、検索、MCP、Web、オペレーティングシステム、Android風環境に関するローカル実験に特に適しています。

この記事は、元の中国語記事を軽く書き直し、翻訳したものです。構成、技術的な流れ、コマンド、表、主要な考え方は維持しつつ、英語で読みやすく、SEO向けに公開しやすいよう言語を調整しています。

出典注記： 元記事はCSDNで公開されており、CC BY-SA 4.0ライセンスに従うと記載されています。元の出典：Qwen-AgentWorld完全デプロイガイド：無料オープンソース、性能はGPT-5.4超え、5分で起動。 検証注記： Qwenの公式ページでは、Qwen-AgentWorld-35B-A3Bのモデル重みとAgentWorldBenchの公開リリースが確認されています。より大規模なQwen-AgentWorld-397B-A17Bは公式ベンチマーク結果に含まれていますが、公開モデルページおよびGitHubリリースでは主に35B-A3Bモデルの重みが示されています。

Qwen-AgentWorld デプロイメントガイド：オープンな35B言語ワールドモデルをローカルで実行する

1. 背景：なぜ言語ワールドモデルが必要なのか？

過去2年間で、AIエージェントは単純なチャットアシスタントから、ウェブサイトの操作、ターミナルコマンドの実行、モバイルアプリの制御、ソフトウェアエンジニアリングタスクの完了まで行えるツールへと急速に進化してきました。

しかし、強力なエージェントを訓練するには費用がかかります。多くの場合、実際の環境との大量のインタラクションが必要であり、それによっていくつかの実務上の問題が生じます。

環境の構築と維持には手間がかかります。
データ収集は遅く、スケールさせるのが困難です。
実環境にはリスクが伴います。特に、失敗ケースをテストしたり、制御された障害を注入したりする場合はなおさらです。

Language World Model、すなわちLWMは、この問題を解決するために構築されています。その考え方はシンプルですが強力です。モデルに環境の役割を担わせるのです。エージェントの行動とインタラクション履歴が与えられると、モデルは次の環境状態を予測します。

この仕組みにより、エージェントは常に実システムに依存するのではなく、シミュレーション内で訓練および評価できます。

2026年6月24日、Qwenチームは、7つのエージェントインタラクション領域を1つのモデルに統合したネイティブな言語世界モデルであるQwen-AgentWorldをリリースしました。併せて、関連ベンチマークであるAgentWorldBenchもリリースされました。

公式リソース：

技術報告書：arXiv:2606.24597

GitHub：QwenLM/Qwen-AgentWorld

2. 中核となる考え方：「ネイティブ」な世界モデルとは何か？

ここで重要なのは、ネイティブという言葉です。Qwen-AgentWorldは、環境を模倣するように訓練後に適応された単なる汎用LLMではありません。その世界モデリングの目標は、最初から訓練プロセスに組み込まれています。

比較項目	従来のアプローチ	Qwen-AgentWorld
学習の出発点	汎用LLMをファインチューニングする	CPT以降、環境モデリングを目標として扱う
学習プロセス	通常はSFTまたはRLのみ	CPT → SFT → RL
環境知識	追加データまたは適応によって付加される	学習中に内在化される
ドメインカバレッジ	1つまたはいくつかのドメイン	1つのモデルに7つのドメイン

言い換えれば、Qwen-AgentWorld は単にプロンプトで包んだ汎用モデルではありません。パイプラインの下位層から、環境の次の状態を予測するように訓練されています。

これにより、特に長いインタラクション軌跡をシミュレートする際に、モデルは環境ダイナミクスをより構造化して理解できるようになります。

3. 7つのドメイン：1つのモデルにおけるテキスト環境とGUI環境

Qwen-AgentWorld は、エージェントのインタラクションシナリオを、テキストベース環境とGUIベース環境という2つの大きなグループに分けています。

┌──────────────────────────────────────────┐
│             Qwen-AgentWorld              │
│                                          │
│  テキスト環境        GUI環境             │
│  ┌──────────┐       ┌──────────────────┐ │
│  │  MCP     │       │  Web             │ │
│  │  検索    │       │  OS              │ │
│  │  端末    │       │  Android         │ │
│  │  SWE     │       └──────────────────┘ │
│  └──────────┘                            │
└──────────────────────────────────────────┘

ドメイン	種類	説明
MCP	テキスト	ツール呼び出しと Model Context Protocol のインタラクション
検索	テキスト	検索エンジンとのインタラクションと取得動作
ターミナル	テキスト	Linux ターミナルコマンドの実行
SWE	テキスト

rowspan="1">

コード修正などのソフトウェアエンジニアリングタスク

Web

GUI

ブラウザおよびウェブページの操作

OS

GUI

デスクトップオペレーティングシステムの操作

Android

GUI

モバイルアプリおよびAndroid風UIの操作

3つのGUI領域では、観測は生のピクセルフレームではなく、レンダリング可能なコードとして表現されます。これにより、テキストベースの世界モデルが、完全な画像シーケンスを直接処理することなく視覚環境を扱えるようになります。

このモデルは、7つの領域にわたる1,000万件以上の実世界のインタラクション軌跡で訓練されました。

4. 3段階のトレーニングパイプライン

Qwen-AgentWorldは、連結された3段階のトレーニングパイプライン（CPT → SFT → RL）を使用します。

ステージ1: CPT — 環境知識の注入

継続的事前学習の間、モデルは大規模な実環境でのインタラクション軌跡から学習します。このステージでは、環境ダイナミクスがモデルの重みに埋め込まれます。

元の記事では、ターンレベルの情報理論的損失マスクについても言及されています。その目的は、どの対話ターンが実際に環境状態情報を含んでいるかを特定し、あまり有用でないターンからのノイズを減らすことです。

ステージ2: SFT — Chain-of-Thought推論の活性化

教師ありファインチューニングは、次状態予測をChain-of-Thought形式の推論パターンへと変換します。

予測結果を直接出力するのではなく、モデルは次の観測を生成する前に、なぜ状態が変化すべきなのかを推論することを学習します。

ステージ3: RL — シミュレーション忠実度の向上

強化学習ステージでは、GSPOアルゴリズムを含むハイブリッド報酬信号を使用して、出力品質を向上させます。

最適化の焦点は次のとおりです。

形式の正確性
事実の正確性

文脈の一貫性

リアリズム

全体的なシミュレーション品質

元の記事で言及されている創発的行動: Qwen-AgentWorldは、自己修正行動、検索シナリオにおける情報漏洩の防止、および一部のコマンド出力予測における多段階の因果推論を示すと報告されています。

5. オープンソースモデル一覧

リリース	パラメータ数	アクティブ化パラメータ数	コンテキスト長	位置づけ
Qwen-AgentWorld-35B-A3B	35B	3B	256Kトークン	公開されている効率的なオープンモデル
Qwen-AgentWorld-397B-A17B	397B	17B	元の表には明確に記載されていません

border-border px-3 py-2 align-top" colspan="1" rowspan="1">

フラッグシップ・ベンチマークモデル

AgentWorldBench

—

評価ベンチマーク

35B-A3B アーキテクチャの詳細

ベースモデル: Qwen3.5-35B-A3B-Base
モデルタイプ: 因果言語モデル / 言語世界モデル
アーキテクチャ形式: ハイブリッド線形アテンション + MoE
隠れ次元: 2048
レイヤー数: 40層
レイヤー構成: Gated DeltaNet、Gated Attention、MoEコンポーネントを含む反復グループ
エキスパート: 256エキスパート

有効化されるエキスパート: 8つのルーティングエキスパート + 1つの共有エキスパート

コンテキスト長: 262,144トークン

推奨される最小コンテキスト: より高品質な長期軌跡シミュレーションのために128Kトークン

公式のHugging Faceドキュメントでも、このモデルはTransformers、vLLM、SGLangと互換性があると記されています。

6. 性能比較: AgentWorldBenchの結果

AgentWorldBenchは、各モデルを5つの次元（Format、Factuality、Consistency、Realism、Quality）で評価します。スコアは0〜100の尺度に正規化され、数値が高いほど優れています。

総合スコアによる完全ランキング

60.85

モデル	MCP	検索	ターミナル	SWE	Android	Web	OS	総合
Qwen-AgentWorld-397B-A17B	68.24	37.82	57.73	68.49	60.20	50.98	67.89	58.71
GPT-5.4	70.10	37.26	53.69	66.29	60.00	51.80	68.58	58.25
Claude Opus 4.6	69.90	29.30	57.51	64.55	61.74	51.42	70.20	57.80
Claude Opus 4.8	54.93	35.14	59.18	64.10	61.50	54.66	66.62	56.59
Qwen-AgentWorld-35B-A3B	64.79	36.69	53.96	65.63	58.17	49.55	65.92	56.39
Claude Sonnet 4.6	70.00	28.79	56.98	64.52	58.03	50.78	63.17	56.04
Qwen3.5-397B-A17B	68.31	30.81	55.30	64.44	54.90	48.55	54.74
Gemini 3.1 Pro	59.07	30.21	52.47	59.07	61.40	52.83	66.92	54.57
DeepSeek-V4-Pro	63.27	27.61	51.26	59.44	55.17	50.32	63.70	52.97
Qwen3.5-35B-A3B	57.87	25.98	46.13	47.58	53.18	47.10	56.27	47.73

元の記事からの主な要点：

Qwen-AgentWorld-397B-A17B は総合スコア 58.71 に達し、掲載されている AgentWorldBench の表で第1位にランクされています。
Qwen-AgentWorld-35B-A3B は、ベースモデルである Qwen3.5-35B-A3B と比べて +8.66 ポイント 向上しています。

実用上の注意： ベンチマークの数値は、公式ベンチマーク設定に基づく参考データとして扱ってください。実際の結果は、ハードウェア、プロンプト設計、提供フレームワーク、コンテキスト長、およびシミュレーションされる環境によって異なります。

7. 4つのアプリケーションパターンと実験結果

パターン1：汎化可能な OOD 環境拡張

元の記事では、Qwen-AgentWorld-397B-A17Bを使用して、4,000の分布外OpenClaw環境でシミュレートされたRLを行い、その後、新しいドメインでゼロショット汎化をテストすることが説明されています。

トレーニング方法	Claw-Eval	QwenClawBench
ベースSFT	65.4	47.9
汎用モデルシミュレーターを用いたSim RL	66.7	47.8
Qwen-AgentWorldシミュレーターを用いたSim RL	69.7	55.0
改善幅	+4.3	+7.1

パターン2：制御可能なシミュレーション — MCPによる標的型摂動

制御された摂動は、標準的な実環境でのトレーニングよりも効果的にエージェントの弱点を明らかにできます。

構成	Tool Decathlon	MCPMark
ベースSFT	32.4	21.5
制御なしのSim RL	31.5	24.6
制御ありのSim RL	36.1	33.8
改善	+3.7	+12.3

パターン3：架空世界の構築 — 検索ドメイン

検索ドメインの実験では、訓練に架空だが自己一貫性のある検索世界を使用し、その後、実際の検索タスクで汎化性能を評価します。

構成	WideSearch F1 項目	WideSearch F1 行
ベース SFT、35B	34.02	13.72
+ Sim RL 架空世界	50.31	24.21
改善幅	+16.29	+10.49

パターン4：エージェント基盤モデル — LWM RL ウォームアップ転移

この記事では、特定のタスクに対する追加のRLファインチューニングを行わずに下流エージェントの性能を向上させる方法として、LWM RLウォームアップについても説明しています。

指標	Terminal-Bench 2.0	SWE-Bench Verified	SWE-Bench Pro	WideSearch F1	Claw-Eval	BFCL v4
ベースSFT	33.25	64.47	42.18	33.38	53.60	62.29
+ LWM RLウォームアップ	39.55	67.86	47.42	46.17	64.88	71.25
改善	+6.30	+3.39	+5.24	+12.79	+11.28	+8.96

注目点：ウォームアップデータは単一ターンの非エージェント的な軌跡から得られたものですが、その改善は、より複雑なマルチターンのツール呼び出しエージェントタスクにも転移します。これは、世界モデリングの知識が元の学習形式を超えて転移できることを示唆しています。

8. クイックデプロイガイド

方法1：SGLangでデプロイする

SGLangは、高速なサービングのために元の記事で推奨されています。

pip install sglang

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

起動後、OpenAI 互換 API エンドポイントは次のとおりです。

http://localhost:8000/v1

方法 2: vLLM でデプロイする

pip install vllm

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

公式ドキュメントの注記: 現在の Hugging Face モデルカードでは、モデルアーキテクチャに視覚コンポーネントの定義が含まれている一方で、チェックポイントには言語モデルの重みが含まれているため、vLLM で --language-model-only を使用することも推奨されています。vLLM の初期化に失敗する場合は、このフラグを追加してみてください。

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

方法 3: Transformers によるローカル推論

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "あなたは Linux ターミナル環境をシミュレートする言語世界モデルです。"
                   "ユーザーのコマンドが与えられたら、ターミナル出力を予測してください。"
    },
    {
        "role": "user",
        "content": "アクション: execute_bash\nコマンド: ls -la /home/user/project/"
    }
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

方法 4: OpenAI 互換 API 経由で呼び出す

この方法は、SGLang または vLLM を通じてモデルを提供した後に機能します。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
    {
        "role": "system",
        "content": "あなたは Linux ターミナル環境をシミュレートする言語世界モデルです。"
    },
    {
        "role": "user",
        "content": "アクション: execute_bash\nコマンド: pwd"
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen-AgentWorld-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
)

print(response.choices[0].message.content)

ベストプラクティス

推奨サンプリング: temperature=0.6、top_p=0.95、top_k=20

推奨出力長: ほとんどの長い観測では約 `32,768` トークン

シミュレーション品質を向上させるため、リポジトリの prompts/ ディレクトリにあるドメイン固有のシステムプロンプトを使用してください
可能な場合はコンテキスト長を少なくとも 128K に保ってください。デフォルトのモデルコンテキストは 256K です

9. AgentWorldBench 評価ワークフロー

AgentWorldBench で独自のワールドモデルをテストしたい場合、元の記事では 3 ステップのワークフローが示されています。

# 1. 評価リポジトリをクローンする
git clone https://github.com/QwenLM/Qwen-AgentWorld.git
cd Qwen-AgentWorld

# 2. 評価データセットをダウンロードする
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench

# 3. 依存関係をインストールする
pip install openai

cd eval

# ステップ 1: ワールドモデル推論
python eval.py infer \
    --data-dir ../AgentWorldBench \
    --model-base-url http://localhost:8000/v1 \
    --model-name Qwen/Qwen-AgentWorld-35B-A3B \
    --output-dir ./results

# ステップ 2: LLM ジャッジによるスコアリング。これには OpenAI API キーが必要です。
export OPENAI_API_KEY="your-api-key"
python eval.py judge \
    --predictions ./results/predictions.jsonl \
    --judge-base-url https://api.openai.com/v1 \
    --judge-model gpt-5.2-2025-12-11 \
    --output-dir ./results

# ステップ 3: スコアを集計する
python eval.py score --predictions ./results/judged.jsonl

各テストサンプルには、実際の環境実行から得られた正解の観測データが含まれています。このベンチマークは、形式、事実性、一貫性、リアリズム、品質の観点からワールドモデリング能力を評価します。

10. ファインチューニングの提案

特定のドメイン向けにQwen-AgentWorldをカスタマイズしたい場合、原論文では一般的な3つのファインチューニングフレームワークが推奨されています。

フレームワーク	強み	適したシナリオ
ms-swift	ModelScope との高い統合性	迅速な実験と Alibaba エコシステムのワークフロー
LLaMA-Factory	活発なコミュニティと幅広い学習戦略のサポート	実用的なエンジニアリング展開
Unsloth	強力なメモリ最適化	リソース制約下でのファインチューニング

11. 出典に関する注記と画像の取り扱い

元の記事には、Qwen-AgentWorld のドメインやベンチマーク結果に関連する複数の画像が含まれています。これらは該当するセクションに残されています。

CSDN プラットフォームのアイコン、プロモーションモジュール、著者購読ブロック、QR コード、投げ銭ボタン、および無関係なおすすめ画像は、公開要件に従って削除されました。

FAQ

Qwen-AgentWorld とは何ですか？

Qwen-AgentWorld は、Qwen チームによる言語世界モデルです。エージェントが行動を取った後の次の環境状態を予測するため、エージェントのシミュレーション、トレーニング、評価に役立ちます。

Qwen-AgentWorld は通常のチャットモデルと同じですか？

いいえ。通常のチャットモデルは主に会話と指示追従に最適化されています。Qwen-AgentWorld は環境シミュレーターとして訓練されているため、主な用途はエージェント相互作用環境における観測の予測です。

公開されている Qwen-AgentWorld モデルはどれですか？

公式ページでは、Qwen-AgentWorld-35B-A3B が公開リリースされたモデル重みとして記載されています。AgentWorldBench も評価ベンチマークとして利用可能です。より大きな 397B モデルはベンチマーク表に登場しますが、公開モデルのリリースは主に 35B-A3B バージョンを指しています。

Qwen-AgentWorld は vLLM でデプロイできますか？

はい。Hugging Face のモデルカードには vLLM によるサービング例が含まれています。初期化の問題が発生した場合、公式モデルカードでは、チェックポイントに言語モデルの重みが含まれているため --language-model-only を追加することを推奨しています。

Qwen-AgentWorld は SGLang でデプロイできますか？

はい。SGLang は推奨されるサービングオプションの一つであり、OpenAI 互換の API エンドポイントを公開できます。その後、ローカル API リクエストを通じてモデルを呼び出すことができます。

Qwen-AgentWorld に長いコンテキストウィンドウが必要なのはなぜですか？

エージェント環境のシミュレーションは、多くの場合、長い対話履歴に依存します。コンテキストウィンドウが短いと重要な状態情報が失われる可能性があるため、公式ガイダンスでは、可能な場合は少なくとも 128K トークンを維持することを推奨しています。

AgentWorldBench は何に使用されますか？

AgentWorldBench は Qwen-AgentWorld とともに公開されたベンチマークです。形式、事実性、一貫性、リアリズム、品質などの観点から、7 つのドメインにわたって言語ワールドモデルを評価します。

Qwen-AgentWorld は本番環境での使用に適していますか？

研究、評価、シミュレーション、社内実験に役立つ可能性があります。本番システムでは、レイテンシ、ハードウェアコスト、安全性、プロンプトの信頼性、およびシミュレーション結果が実環境と十分に一致しているかどうかを評価する必要があります。