AI 에이전트를 위한 Alibaba Qwen의 언어 월드 모델인 Qwen-AgentWorld에 대한 실용적인 한국어 가이드입니다. 7개 도메인 설계, 학습 파이프라인, AgentWorldBench 결과, SGLang 및 vLLM 배포 명령, 로컬 Tr...

Qwen-AgentWorld는 Qwen 팀이 에이전트 환경을 시뮬레이션하기 위해 공개한 언어 월드 모델입니다. 일반적인 챗 모델처럼 질문에 답하는 데 그치지 않고, 에이전트가 행동을 취한 뒤 환경이 무엇을 반환할지 예측하도록 설계되었습니다.

이러한 특성 때문에 AI 에이전트 연구, 시뮬레이션 기반 강화학습, 벤치마크 평가, 그리고 터미널, 소프트웨어 엔지니어링, 검색, MCP, 웹, 운영체제, Android 스타일 환경과 관련된 로컬 실험에 특히 적합합니다.

이 글은 원본 중국어 글을 가볍게 재작성하고 번역한 버전입니다. 구조, 기술적 흐름, 명령어, 표, 핵심 아이디어는 유지하되, 더 매끄러운 영어 읽기와 SEO 게시에 맞게 문장을 조정했습니다.

출처 참고: 원문은 CSDN에 게시되었으며 CC BY-SA 4.0 라이선스를 따른다고 명시되어 있습니다. 원문 출처: Qwen-AgentWorld 전체 배포 가이드: 무료 오픈소스, GPT-5.4를 뛰어넘는 성능, 5분 만에 실행. 검증 참고: 공식 Qwen 페이지에서는 Qwen-AgentWorld-35B-A3B 모델 가중치와 AgentWorldBench의 공개 릴리스를 확인할 수 있습니다. 더 큰 Qwen-AgentWorld-397B-A17B는 공식 벤치마크 결과에 포함되어 있지만, 공개 모델 페이지와 GitHub 릴리스는 주로 35B-A3B 모델 가중치를 가리킵니다.

Qwen-AgentWorld 배포 가이드: 오픈 35B 언어 월드 모델을 로컬에서 실행하기

1. 배경: 왜 언어 월드 모델이 필요한가?

지난 2년 동안 AI 에이전트는 단순한 채팅 어시스턴트에서 웹사이트를 조작하고, 터미널 명령을 실행하며, 모바일 앱을 제어하고, 소프트웨어 엔지니어링 작업을 완료할 수 있는 도구로 빠르게 발전했습니다.

하지만 강력한 에이전트를 훈련하는 데는 많은 비용이 듭니다. 대량의 실제 환경 상호작용이 필요한 경우가 많으며, 이는 여러 가지 실질적인 문제를 야기합니다.

환경을 구축하고 유지 관리하는 일은 번거롭습니다.
데이터 수집은 느리고 확장하기 어렵습니다.
실제 환경에는 특히 실패 사례를 테스트하거나 통제된 장애를 주입할 때 위험이 따릅니다.

언어 월드 모델, 즉 LWM은 이 문제를 해결하기 위해 구축되었습니다. 아이디어는 단순하지만 강력합니다. 모델이 환경의 역할을 수행하게 하는 것입니다. 에이전트의 행동과 상호작용 기록이 주어지면, 모델은 다음 환경 상태를 예측합니다.

이러한 설정을 통해 에이전트는 항상 실제 시스템에 의존하지 않고도 시뮬레이션에서 훈련되고 평가될 수 있습니다.

2026년 6월 24일, Qwen 팀은 하나의 모델에서 일곱 가지 에이전트 상호작용 도메인을 통합한 네이티브 언어 월드 모델인 Qwen-AgentWorld를 공개했습니다. 함께 제공되는 벤치마크인 AgentWorldBench도 함께 공개되었습니다.

공식 리소스:

기술 보고서: arXiv:2606.24597

GitHub: QwenLM/Qwen-AgentWorld

2. 핵심 아이디어: 무엇이 이것을 “네이티브” 월드 모델로 만드는가?

여기서 네이티브라는 단어는 중요합니다. Qwen-AgentWorld는 환경을 모방하도록 학습 후에 조정된 범용 LLM이 아닙니다. 월드 모델링 목표가 처음부터 학습 과정에 내장되어 있습니다.

비교 차원	전통적 접근 방식	Qwen-AgentWorld
학습 시작점	범용 LLM 미세 조정	CPT 단계부터 환경 모델링을 목표로 삼음
학습 과정	일반적으로 SFT 또는 RL만 사용	CPT → SFT → RL
환경 지식	추가 데이터 또는 적응을 통해 추가됨	학습 중 내재화됨
도메인 범위	하나 또는 몇 개의 도메인	하나의 모델에 포함된 7개 도메인

다시 말해, Qwen-AgentWorld는 단순히 프롬프트로 감싼 범용 모델이 아닙니다. 환경의 다음 상태를 예측하도록 파이프라인의 하위 계층부터 학습됩니다.

이를 통해 모델은 특히 긴 상호작용 궤적을 시뮬레이션할 때 환경 동역학을 더 구조적으로 이해할 수 있습니다.

3. 7개 도메인: 하나의 모델에 담긴 텍스트 및 GUI 환경

Qwen-AgentWorld는 에이전트 상호작용 시나리오를 텍스트 기반 환경과 GUI 기반 환경이라는 두 큰 그룹으로 나눕니다.

┌──────────────────────────────────────────┐
│             Qwen-AgentWorld              │
│                                          │
│  텍스트 환경          GUI 환경           │
│  ┌──────────┐       ┌──────────────────┐ │
│  │  MCP     │       │  웹              │ │
│  │  검색    │       │  OS              │ │
│  │  터미널  │       │  안드로이드      │ │
│  │  SWE     │       └──────────────────┘ │
│  └──────────┘                            │
└──────────────────────────────────────────┘

도메인	유형	설명
MCP	텍스트	도구 호출 및 모델 컨텍스트 프로토콜 상호작용
검색	텍스트	검색 엔진 상호작용 및 검색 동작
터미널	텍스트	Linux 터미널 명령 실행
SWE	텍스트	코드 수정과 같은 소프트웨어 엔지니어링 작업
웹	GUI	브라우저 및 웹페이지 상호작용
OS	GUI	데스크톱 운영 체제 상호작용
Android	GUI	모바일 앱 및 Android 스타일 UI 상호작용

세 가지 GUI 도메인의 경우 관측값은 원시 픽셀 프레임이 아니라 렌더링 가능한 코드로 표현됩니다. 이를 통해 텍스트 기반 월드 모델이 전체 이미지 시퀀스를 직접 처리하지 않고도 시각적 환경을 다룰 수 있습니다.

이 모델은 7개 도메인에 걸친 1,000만 개 이상의 실제 상호작용 궤적으로 훈련되었습니다.

4. 3단계 학습 파이프라인

Qwen-AgentWorld는 연결된 3단계 학습 파이프라인인 CPT → SFT → RL을 사용합니다.

1단계: CPT — 환경 지식 주입

지속적 사전 학습 동안 모델은 대규모 실제 환경 상호작용 궤적에서 학습합니다. 이 단계는 환경 동역학을 모델 가중치에 내재화합니다.

원문 기사에서는 턴 수준의 정보이론적 손실 마스크도 언급합니다. 목표는 실제로 환경 상태 정보를 담고 있는 대화 턴을 식별하고, 덜 유용한 턴에서 발생하는 노이즈를 줄이는 것입니다.

2단계: SFT — 사고 연쇄 추론 활성화

지도 미세 조정은 다음 상태 예측을 사고 연쇄 스타일의 추론 패턴으로 전환합니다.

예측 결과를 직접 출력하는 대신, 모델은 다음 관측을 생성하기 전에 상태가 왜 변화해야 하는지 추론하는 법을 학습합니다.

3단계: RL — 시뮬레이션 충실도 개선

강화학습 단계는 GSPO 알고리즘을 포함한 하이브리드 보상 신호를 사용하여 출력 품질을 향상시킵니다.

최적화는 다음에 중점을 둡니다:

형식 정확성
사실 정확성

맥락 일관성

현실성

전반적인 시뮬레이션 품질

원문 기사에서 언급된 창발적 행동: Qwen-AgentWorld는 자기 교정 행동, 검색 시나리오에서의 정보 유출 방지, 일부 명령-출력 예측에 대한 다단계 인과 추론을 보이는 것으로 보고되었습니다.

5. 오픈소스 모델 목록

릴리스	파라미터	활성화된 파라미터	컨텍스트 길이	포지셔닝
Qwen-AgentWorld-35B-A3B	35B	3B	256K 토큰	공개된 효율적인 오픈 모델
Qwen-AgentWorld-397B-A17B	397B	17B	원본 표에 명확히 기재되어 있지 않음

border-border px-3 py-2 align-top" colspan="1" rowspan="1">

플래그십 벤치마크 모델

AgentWorldBench

—

평가 벤치마크

35B-A3B 아키텍처 세부 정보

기본 모델: Qwen3.5-35B-A3B-Base
모델 유형: 인과적 언어 모델 / 언어 월드 모델
아키텍처 스타일: 하이브리드 선형 어텐션 + MoE
은닉 차원: 2048
레이어: 40개 레이어
레이어 구성: Gated DeltaNet, Gated Attention 및 MoE 구성 요소가 포함된 반복 그룹
전문가: 전문가 256개

활성화된 전문가: 라우팅된 전문가 8개 + 공유 전문가 1개

컨텍스트 길이: 262,144 토큰

권장 최소 컨텍스트: 더 나은 장기 궤적 시뮬레이션 품질을 위해 128K 토큰

공식 Hugging Face 문서에서도 이 모델이 Transformers, vLLM, SGLang과 호환된다고 명시하고 있습니다.

6. 성능 비교: AgentWorldBench 결과

AgentWorldBench는 각 모델을 형식, 사실성, 일관성, 현실성, 품질의 다섯 가지 차원에서 평가합니다. 점수는 0~100 척도로 정규화되며, 높을수록 좋습니다.

종합 점수별 전체 순위

60.85

모델	MCP	검색	터미널	SWE	안드로이드	웹	OS	전체
Qwen-AgentWorld-397B-A17B	68.24	37.82	57.73	68.49	60.20	50.98	67.89	58.71
GPT-5.4	70.10	37.26	53.69	66.29	60.00	51.80	68.58	58.25
Claude Opus 4.6	69.90	29.30	57.51	64.55	61.74	51.42	70.20	57.80
Claude Opus 4.8	54.93	35.14	59.18	64.10	61.50	54.66	66.62	56.59
Qwen-AgentWorld-35B-A3B	64.79	36.69	53.96	65.63	58.17	49.55	65.92	56.39
Claude Sonnet 4.6	70.00	28.79	56.98	64.52	58.03	50.78	63.17	56.04
Qwen3.5-397B-A17B	68.31	30.81	55.30	64.44	54.90	48.55	54.74
Gemini 3.1 Pro	59.07	30.21	52.47	59.07	61.40	52.83	66.92	54.57
DeepSeek-V4-Pro	63.27	27.61	51.26	59.44	55.17	50.32	63.70	52.97
Qwen3.5-35B-A3B	57.87	25.98	46.13	47.58	53.18	47.10	56.27	47.73

원문 기사에서의 핵심 요점:

Qwen-AgentWorld-397B-A17B는 종합 점수 58.71을 기록하며, 나열된 AgentWorldBench 표에서 1위를 차지했습니다.
Qwen-AgentWorld-35B-A3B는 기본 Qwen3.5-35B-A3B 모델보다 +8.66점 향상되었습니다.

실용적 참고 사항: 벤치마크 수치는 공식 벤치마크 설정에서 나온 참고 데이터로 간주하세요. 실제 결과는 하드웨어, 프롬프트 설계, 서빙 프레임워크, 컨텍스트 길이, 그리고 시뮬레이션되는 환경에 따라 달라질 수 있습니다.

7. 네 가지 애플리케이션 패턴과 실험 결과

패턴 1: 일반화 가능한 OOD 환경 확장

원문 기사에서는 Qwen-AgentWorld-397B-A17B를 사용해 4,000개의 분포 외 OpenClaw 환경에서 시뮬레이션 기반 RL을 수행한 뒤, 새로운 도메인에서 제로샷 일반화 성능을 테스트했다고 설명합니다.

훈련 방법	Claw-Eval	QwenClawBench
기본 SFT	65.4	47.9
일반 모델 시뮬레이터를 사용한 시뮬레이션 RL	66.7	47.8
Qwen-AgentWorld 시뮬레이터를 사용한 시뮬레이션 RL	69.7	55.0
개선	+4.3	+7.

패턴 2: 제어 가능한 시뮬레이션 — MCP 표적 교란

제어된 교란은 표준 실제 환경 훈련보다 에이전트의 약점을 더 효과적으로 드러낼 수 있습니다.

구성	Tool Decathlon	MCPMark
기본 SFT	32.4	21.5
제어 없는 Sim RL	31.5	24.6
제어 포함 Sim RL	36.1	33.8
개선	+3.7	+12.3

패턴 3: 가상 세계 구축 — 검색 도메인

검색 도메인 실험은 훈련에는 가상이지만 자기 일관적인 검색 세계를 사용한 뒤, 실제 검색 과제에서 일반화를 평가합니다.

구성	WideSearch F1 항목	WideSearch F1 행
기본 SFT, 35B	34.02	13.72
+ Sim RL 가상 세계	50.31	24.21
개선	+16.29	+10.49

패턴 4: 에이전트 기반 모델 — LWM RL 워밍업 전이

이 논문은 또한 특정 작업에 대한 추가 RL 미세 조정 없이 다운스트림 에이전트 성능을 향상시키는 방법으로 LWM RL 워밍업을 설명합니다.

지표	Terminal-Bench 2.0	SWE-Bench Verified	SWE-Bench Pro	WideSearch F1	Claw-Eval	BFCL v4
기본 SFT	33.25	64.47	42.18	33.38	53.60	62.29
+ LWM RL 워밍업	39.55	67.86	47.42	46.17	64.88	71.25
향상	+6.30	+3.39	+5.24	+12.79	+11.28	+8.96

핵심: 워밍업 데이터는 단일 턴의 비에이전트형 궤적에서 나온 것이지만, 그 향상 효과는 더 복잡한 다중 턴 도구 호출 에이전트 작업으로 전이됩니다. 이는 월드 모델링 지식이 원래의 학습 형식을 넘어 전이될 수 있음을 시사합니다.

8. 빠른 배포 가이드

방법 1: SGLang으로 배포

SGLang은 원문에서 빠른 서빙을 위해 권장됩니다.

pip install sglang

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

시작 후 OpenAI 호환 API 엔드포인트는 다음과 같습니다:

http://localhost:8000/v1

방법 2: vLLM으로 배포하기

pip install vllm

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

공식 문서 참고: 현재 Hugging Face 모델 카드에서는 모델 아키텍처에 시각적 구성 요소 정의가 포함되어 있지만 체크포인트에는 언어 모델 가중치가 포함되어 있으므로 vLLM에서 --language-model-only를 사용하는 것도 권장합니다. vLLM 초기화에 실패하면 해당 플래그를 추가해 보세요.

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

방법 3: Transformers를 사용한 로컬 추론

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "당신은 Linux 터미널 환경을 시뮬레이션하는 언어 세계 모델입니다. "
                   "사용자의 명령이 주어지면 터미널 출력을 예측하세요."
    },
    {
        "role": "user",
        "content": "작업: execute_bash\n명령: ls -la /home/user/project/"
    }
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

방법 4: OpenAI 호환 API를 통해 호출하기

이 방법은 SGLang 또는 vLLM을 통해 모델을 서빙한 후에 작동합니다.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
    {
        "role": "system",
        "content": "당신은 Linux 터미널 환경을 시뮬레이션하는 언어 세계 모델입니다."
    },
    {
        "role": "user",
        "content": "작업: execute_bash\n명령: pwd"
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen-AgentWorld-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
)

print(response.choices[0].message.content)

모범 사례

권장 샘플링: temperature=0.6, top_p=0.95, top_k=20

권장 출력 길이: 대부분의 긴 관찰에는 약 `32,768` 토큰

더 나은 시뮬레이션 품질을 위해 저장소의 prompts/ 디렉터리에 있는 도메인별 시스템 프롬프트를 사용하세요
가능하면 컨텍스트 길이를 최소 128K로 유지하세요. 기본 모델 컨텍스트는 256K입니다

9. AgentWorldBench 평가 워크플로

AgentWorldBench에서 자체 월드 모델을 테스트하려면, 원문에서는 3단계 워크플로를 제시합니다.

# 1. 평가 저장소 복제
git clone https://github.com/QwenLM/Qwen-AgentWorld.git
cd Qwen-AgentWorld

# 2. 평가 데이터셋 다운로드
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench

# 3. 종속성 설치
pip install openai

cd eval

# 1단계: 월드 모델 추론
python eval.py infer \
    --data-dir ../AgentWorldBench \
    --model-base-url http://localhost:8000/v1 \
    --model-name Qwen/Qwen-AgentWorld-35B-A3B \
    --output-dir ./results

# 2단계: LLM 심판 채점. OpenAI API 키가 필요합니다.
export OPENAI_API_KEY="your-api-key"
python eval.py judge \
    --predictions ./results/predictions.jsonl \
    --judge-base-url https://api.openai.com/v1 \
    --judge-model gpt-5.2-2025-12-11 \
    --output-dir ./results

# 3단계: 점수 집계
python eval.py score --predictions ./results/judged.jsonl

각 테스트 샘플에는 실제 환경 실행에서 얻은 정답 관찰 데이터가 포함됩니다. 이 벤치마크는 형식, 사실성, 일관성, 현실성 및 품질 전반에 걸쳐 월드 모델링 능력을 평가합니다.

10. 파인튜닝 제안

특정 도메인에 맞게 Qwen-AgentWorld를 커스터마이징하려는 경우, 원문에서는 세 가지 일반적인 파인튜닝 프레임워크를 권장합니다.

프레임워크	강점	적합한 시나리오
ms-swift	ModelScope와의 높은 통합성	빠른 실험 및 Alibaba 생태계 워크플로
LLaMA-Factory	활발한 커뮤니티와 폭넓은 학습 전략 지원	실용적인 엔지니어링 배포
Unsloth	강력한 메모리 최적화	리소스가 제한된 환경에서의 파인튜닝

11. 출처 참고 사항 및 이미지 처리

원문 기사에는 Qwen-AgentWorld 도메인 및 벤치마크 결과와 관련된 여러 이미지가 포함되어 있습니다. 이러한 이미지는 관련 섹션에 유지되었습니다.

CSDN 플랫폼 아이콘, 홍보 모듈, 작성자 구독 블록, QR 코드, 후원 버튼 및 관련 없는 추천 이미지는 게시 요구 사항에 따라 제거되었습니다.

FAQ

Qwen-AgentWorld란 무엇인가요?

Qwen-AgentWorld는 Qwen 팀의 언어 월드 모델입니다. 에이전트가 행동을 취한 후 다음 환경 상태를 예측하므로 에이전트 시뮬레이션, 훈련 및 평가에 유용합니다.

Qwen-AgentWorld는 일반 채팅 모델과 같은가요?

아닙니다. 일반 채팅 모델은 주로 대화와 지시 따르기에 최적화되어 있습니다. Qwen-AgentWorld는 환경 시뮬레이터로 훈련되었기 때문에 주요 사용 사례는 에이전트 상호작용 환경에서 관측값을 예측하는 것입니다.

공개적으로 사용할 수 있는 Qwen-AgentWorld 모델은 무엇인가요?

공식 페이지에는 공개 출시된 모델 가중치로 Qwen-AgentWorld-35B-A3B가 나와 있습니다. AgentWorldBench도 평가 벤치마크로 제공됩니다. 더 큰 397B 모델은 벤치마크 표에 등장하지만, 공개 모델 릴리스는 주로 35B-A3B 버전을 가리킵니다.

Qwen-AgentWorld를 vLLM으로 배포할 수 있나요?

네. Hugging Face 모델 카드에는 vLLM 서빙 예제가 포함되어 있습니다. 초기화 문제가 발생하면, 공식 모델 카드는 체크포인트에 언어 모델 가중치가 포함되어 있으므로 --language-model-only를 추가할 것을 권장합니다.

Qwen-AgentWorld를 SGLang으로 배포할 수 있나요?

네. SGLang은 권장되는 서빙 옵션 중 하나이며 OpenAI 호환 API 엔드포인트를 노출할 수 있습니다. 그런 다음 로컬 API 요청을 통해 모델을 호출할 수 있습니다.

Qwen-AgentWorld에 긴 컨텍스트 창이 필요한 이유는 무엇인가요?

에이전트 환경 시뮬레이션은 긴 상호작용 기록에 의존하는 경우가 많습니다. 더 짧은 컨텍스트 창은 중요한 상태 정보를 잃을 수 있으므로, 공식 가이드는 가능한 경우 최소 128K 토큰을 유지할 것을 권장합니다.

AgentWorldBench는 무엇에 사용되나요?

AgentWorldBench는 Qwen-AgentWorld와 함께 공개된 벤치마크입니다. 형식, 사실성, 일관성, 현실감, 품질 등의 차원을 사용하여 7개 도메인에서 언어 월드 모델을 평가합니다.

Qwen-AgentWorld는 프로덕션 용도에 적합한가요?

연구, 평가, 시뮬레이션 및 내부 실험에 유용할 수 있습니다. 프로덕션 시스템의 경우에도 지연 시간, 하드웨어 비용, 안전성, 프롬프트 신뢰성, 그리고 시뮬레이션 결과가 실제 환경과 충분히 밀접하게 일치하는지 여부를 평가해야 합니다.