Un guide pratique en anglais consacré à Qwen-AgentWorld, le modèle de monde linguistique d’Alibaba Qwen pour les agents IA. Découvrez sa con...

Qwen-AgentWorld est un modèle de monde linguistique publié par l’équipe Qwen pour simuler des environnements d’agents. Au lieu de se contenter de répondre à des questions comme un modèle de chat généraliste, il est conçu pour prédire ce qu’un environnement renverrait après qu’un agent a effectué une action.

Cela le rend particulièrement pertinent pour la recherche sur les agents d’IA, l’apprentissage par renforcement simulé, l’évaluation de benchmarks et les expérimentations locales autour des environnements de terminal, de génie logiciel, de recherche, de MCP, web, de système d’exploitation et de type Android.

Cet article est une version légèrement réécrite et traduite de l’article chinois original. La structure, le déroulé technique, les commandes, les tableaux et les idées clés sont conservés, tandis que la langue a été adaptée pour une lecture plus fluide en anglais et une publication optimisée pour le SEO.

Note sur la source : L’article original a été publié sur CSDN et indique qu’il suit la licence CC BY-SA 4.0. Source originale : Guide complet de déploiement de Qwen-AgentWorld : gratuit et open source, performances supérieures à GPT-5.4, opérationnel en 5 minutes. Note de vérification : Les pages officielles de Qwen confirment la publication publique des poids du modèle Qwen-AgentWorld-35B-A3B et de AgentWorldBench. Le modèle plus grand Qwen-AgentWorld-397B-A17B est inclus dans les résultats de benchmark officiels, mais la page publique du modèle et la publication GitHub renvoient principalement aux poids du modèle 35B-A3B.

Guide de déploiement de Qwen-AgentWorld : exécuter localement le modèle ouvert de monde linguistique 35B

1. Contexte : pourquoi avons-nous besoin d’un modèle de monde linguistique ?

Au cours des deux dernières années, les agents d’IA sont rapidement passés de simples assistants conversationnels à des outils capables d’utiliser des sites web, d’exécuter des commandes dans un terminal, de contrôler des applications mobiles et d’accomplir des tâches de génie logiciel.

Mais entraîner un agent performant coûte cher. Cela nécessite souvent de grands volumes d’interactions avec des environnements réels, ce qui crée plusieurs problèmes pratiques :

Créer et maintenir des environnements est fastidieux.
La collecte de données est lente et difficile à mettre à l’échelle.
Les environnements réels comportent des risques, en particulier lorsqu’il s’agit de tester des cas d’échec ou d’injecter des perturbations contrôlées.

Un Language World Model, ou LWM, est conçu pour résoudre ce problème. L’idée est simple mais puissante : laisser un modèle jouer le rôle de l’environnement. À partir d’une action de l’agent et de l’historique des interactions, le modèle prédit l’état suivant de l’environnement.

Avec cette configuration, les agents peuvent être entraînés et évalués en simulation au lieu de dépendre constamment de systèmes réels.

Le 24/06/2026, l’équipe Qwen a publié Qwen-AgentWorld, un modèle de monde linguistique natif qui unifie sept domaines d’interaction d’agents dans un seul modèle. Le benchmark associé, AgentWorldBench, a également été publié.

Ressources officielles :

Rapport technique : arXiv:2606.24597

GitHub : QwenLM/Qwen-AgentWorld

2. Idée centrale : qu’est-ce qui en fait un modèle du monde « natif » ?

Le mot natif est important ici. Qwen-AgentWorld n’est pas simplement un LLM à usage général adapté après l’entraînement pour imiter un environnement. Son objectif de modélisation du monde est intégré au processus d’entraînement dès le départ.

Dimension de comparaison	Approche traditionnelle	Qwen-AgentWorld
Point de départ de l’entraînement	Ajuster finement un LLM généraliste	Considérer la modélisation de l’environnement comme l’objectif dès le CPT
Processus d’entraînement	Généralement uniquement SFT ou RL	CPT → SFT → RL
Connaissance de l’environnement	Ajoutée via des données supplémentaires ou une adaptation	Internalisée pendant l’entraînement
Couverture des domaines	Un ou quelques domaines	Sept domaines dans un seul modèle

Autrement dit, Qwen-AgentWorld n’est pas simplement un modèle général enveloppé dans des prompts. Il est entraîné dès les couches inférieures du pipeline à prédire l’état suivant d’un environnement.

Cela donne au modèle une compréhension plus structurée de la dynamique des environnements, en particulier lors de la simulation de longues trajectoires d’interaction.

3. Sept domaines : environnements textuels et graphiques dans un seul modèle

Qwen-AgentWorld divise les scénarios d’interaction des agents en deux grands groupes : les environnements textuels et les environnements graphiques.

┌──────────────────────────────────────────┐
│             Qwen-AgentWorld              │
│                                          │
│ Environnements textuels Environnements graphiques │
│  ┌──────────┐       ┌──────────────────┐ │
│  │  MCP     │       │  Web             │ │
│  │ Recherche│       │  OS              │ │
│  │ Terminal │       │  Android         │ │
│  │  SWE     │       └──────────────────┘ │
│  └──────────┘                            │
└──────────────────────────────────────────┘

Domaine	Type	Description
MCP	Texte	Appels d’outils et interactions avec le Model Context Protocol
Recherche	Texte	Interaction avec les moteurs de recherche et comportement de récupération
Terminal	Texte	Exécution de commandes dans le terminal Linux
SWE	Texte

rowspan="1">

Tâches de génie logiciel, telles que les corrections de code

Web

Interface graphique

Interaction avec le navigateur et les pages web

OS

Interface graphique

Interaction avec le système d’exploitation de bureau

Android

Interface graphique

Interaction avec les applications mobiles et les interfaces utilisateur de type Android

Pour les trois domaines d’interface graphique, les observations sont représentées sous forme de code pouvant être rendu plutôt que d’images brutes en pixels. Cela permet à un modèle du monde textuel de couvrir des environnements visuels sans traiter directement des séquences complètes d’images.

Le modèle a été entraîné sur plus de 10 millions de trajectoires d’interaction réelles dans les sept domaines.

4. Pipeline d’entraînement en trois étapes

Qwen-AgentWorld utilise un pipeline d’entraînement connecté en trois étapes : CPT → SFT → RL.

Étape 1 : CPT — Injection de connaissances sur l’environnement

Lors du pré-entraînement continu, le modèle apprend à partir de trajectoires d’interaction avec des environnements réels à grande échelle. Cette étape intègre la dynamique de l’environnement dans les poids du modèle.

L’article original mentionne également un masque de perte informationnel au niveau des tours de dialogue. L’objectif est d’identifier quels tours de dialogue véhiculent réellement des informations sur l’état de l’environnement et de réduire le bruit provenant des tours moins utiles.

Étape 2 : SFT — Activation du raisonnement en chaîne de pensée

Le réglage fin supervisé transforme la prédiction de l’état suivant en un schéma de raisonnement de type chaîne de pensée.

Au lieu de produire directement un résultat prédit, le modèle apprend à raisonner sur les raisons pour lesquelles un état devrait changer avant de générer l’observation suivante.

Étape 3 : RL — Amélioration de la fidélité de simulation

L’étape d’apprentissage par renforcement utilise des signaux de récompense hybrides, notamment l’algorithme GSPO, afin d’améliorer la qualité des sorties.

L’optimisation se concentre sur :

La correction du format
L’exactitude factuelle

Cohérence du contexte

Réalisme

Qualité globale de la simulation

Comportements émergents mentionnés dans l’article original : Qwen-AgentWorld présenterait un comportement d’auto-correction, une prévention des fuites d’informations dans les scénarios de recherche et un raisonnement causal en plusieurs étapes pour certaines prédictions de sorties de commandes.

5. Liste des modèles open source

Version	Paramètres	Paramètres activés	Longueur du contexte	Positionnement
Qwen-AgentWorld-35B-A3B	35B	3B	256K jetons	Modèle ouvert public et efficace
Qwen-AgentWorld-397B-A17B	397B	17B	Pas clairement indiqué dans le tableau d’origine	Modèle de référence phare
AgentWorldBench	—	—	—	Benchmark d’évaluation

Détails de l’architecture 35B-A3B

Modèle de base : Qwen3.5-35B-A3B-Base
Type de modèle : Modèle de langage causal / Modèle de monde linguistique
Style d’architecture : Attention linéaire hybride + MoE
Dimension cachée : 2048
Couches : 40 couches
Disposition des couches : groupes répétés avec des composants Gated DeltaNet, Gated Attention et MoE
Experts : 256 experts

Experts activés : 8 experts routés + 1 expert partagé

Longueur du contexte : 262 144 tokens

Contexte minimal recommandé : 128K tokens pour une meilleure qualité de simulation de longues trajectoires

La documentation officielle de Hugging Face indique également que le modèle est compatible avec Transformers, vLLM et SGLang.

6. Comparaison des performances : résultats d’AgentWorldBench

AgentWorldBench évalue chaque modèle selon cinq dimensions : Format, Factualité, Cohérence, Réalisme et Qualité. Les scores sont normalisés sur une échelle de 0 à 100, où un score plus élevé est meilleur.

Classement complet par score global

60.85

Modèle	MCP	Recherche	Terminal	SWE	Android	Web	SE	Global
Qwen-AgentWorld-397B-A17B	68.24	37.82	57.73	68.49	60.20	50.98	67.89	58.71
GPT-5.4	70.10	37.26	53.69	66.29	60.00	51.80	68.58	58.25
Claude Opus 4.6	69.90	29.30	57.51	64.55	61.74	51.42	70.20	57.80
Claude Opus 4.8	54.93	35.14	59.18	64.10	61.50	54.66	66.62	56.59
Qwen-AgentWorld-35B-A3B	64.79	36.69	53.96	65.63	58.17	49.55	65.92	56.39
Claude Sonnet 4.6	70.00	28.79	56.98	64.52	58.03	50.78	63.17	56.04
Qwen3.5-397B-A17B	68.31	30.81	55.30	64.44	54.90	48.55	54.74
Gemini 3.1 Pro	59.07	30.21	52.47	59.07	61.40	52.83	66.92	54.57
DeepSeek-V4-Pro	63.27	27.61	51.26	59.44	55.17	50.32	63.70	52.97
Qwen3.5-35B-A3B	57.87	25.98	46.13	47.58	53.18	47.10	56.27	47.73

Principaux enseignements de l’article original :

Qwen-AgentWorld-397B-A17B atteint un score global de 58.71 et se classe premier dans le tableau AgentWorldBench présenté.
Qwen-AgentWorld-35B-A3B progresse de +8.66 points par rapport au modèle de base Qwen3.5-35B-A3B.

Note pratique : Considérez les scores de référence comme des données indicatives issues de la configuration officielle du benchmark. Les résultats réels dépendront du matériel, de la conception des prompts, du framework de déploiement, de la longueur du contexte et de l’environnement simulé.

7. Quatre schémas d’application et résultats expérimentaux

Schéma 1 : extension généralisable à des environnements OOD

L’article original décrit l’utilisation de Qwen-AgentWorld-397B-A17B pour l’apprentissage par renforcement simulé dans 4 000 environnements OpenClaw hors distribution, puis l’évaluation de la généralisation zéro-shot dans de nouveaux domaines.

Méthode d’entraînement	Claw-Eval	QwenClawBench
SFT de base	65.4	47.9
RL simulé avec un simulateur de modèle général	66.7	47.8
RL simulé avec le simulateur Qwen-AgentWorld	69.7	55.0
Amélioration	+4.3	+7.1

Modèle 2 : Simulation contrôlable — Perturbation ciblée par MCP

Les perturbations contrôlées peuvent révéler les points faibles d’un agent plus efficacement que l’entraînement standard en environnement réel.

Configuration	Tool Decathlon	MCPMark
SFT de base	32.4	21.5
RL sim. sans contrôle	31.5	24.6
RL sim. avec contrôle	36.1	33.8
Amélioration	+3.7	+12.3

Modèle 3 : Construction d’un monde fictionnel — Domaine de recherche

L’expérience du domaine de recherche utilise un monde de recherche fictionnel mais cohérent en interne pour l’entraînement, puis évalue la généralisation sur des tâches de recherche réelles.

Configuration	WideSearch F1 élément	WideSearch F1 ligne
SFT de base, 35B	34.02	13.72
+ RL simulé dans un monde fictionnel	50.31	24.21
Amélioration	+16.29	+10.49

Modèle 4 : Modèle fondamental d’agent — Transfert de préchauffage RL LWM

L’article décrit également le préchauffage RL de LWM comme un moyen d’améliorer les performances de l’agent en aval sans réglage fin RL supplémentaire sur ces tâches spécifiques.

Indicateur	Terminal-Bench 2.0	SWE-Bench Verified	SWE-Bench Pro	WideSearch F1	Claw-Eval	BFCL v4
SFT de base	33.25	64.47	42.18	33.38	53.60	62.29
+ échauffement RL LWM	39.55	67.86	47.42	46.17	64.88	71.25
Amélioration	+6.30	+3.39	+5.24	+12.79	+11.28	+8.96

Point clé : Les données d’échauffement proviennent de trajectoires à tour unique et non agentiques, mais l’amélioration se transfère à des tâches d’agents plus complexes, multi-tours et faisant appel à des outils. Cela suggère que les connaissances de modélisation du monde peuvent se transférer au-delà de leur format d’entraînement initial.

8. Guide de déploiement rapide

Méthode 1 : Déployer avec SGLang

SGLang est recommandé dans l’article original pour un service rapide.

pip install sglang

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

Après le démarrage, le point de terminaison de l’API compatible avec OpenAI est :

http://localhost:8000/v1

Méthode 2 : Déployer avec vLLM

pip install vllm

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

Note de la documentation officielle : La fiche de modèle Hugging Face actuelle recommande également d’utiliser --language-model-only avec vLLM, car l’architecture du modèle inclut des définitions de composants visuels tandis que le checkpoint contient les poids du modèle de langage. Si l’initialisation de vLLM échoue, essayez d’ajouter cet indicateur.

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

Méthode 3 : Inférence locale avec Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "Vous êtes un modèle de monde linguistique simulant un environnement de terminal Linux. "
                   "Étant donné la commande de l’utilisateur, prédisez la sortie du terminal."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: ls -la /home/user/project/"
    }
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

Méthode 4 : appel via une API compatible avec OpenAI

Cette méthode fonctionne après avoir servi le modèle via SGLang ou vLLM.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
    {
        "role": "system",
        "content": "Vous êtes un modèle de monde linguistique simulant un environnement de terminal Linux."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: pwd"
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen-AgentWorld-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
)

print(response.choices[0].message.content)

Bonnes pratiques

Échantillonnage recommandé : temperature=0.6, top_p=0.95, top_k=20

Longueur de sortie recommandée : environ `32,768` jetons pour la plupart des longues observations

Utilisez les invites système spécifiques au domaine depuis le répertoire prompts/ du dépôt pour une meilleure qualité de simulation
Maintenez la longueur du contexte à au moins 128K lorsque c’est possible ; le contexte par défaut du modèle est de 256K

9. Flux de travail d’évaluation d’AgentWorldBench

Si vous souhaitez tester votre propre modèle de monde sur AgentWorldBench, l’article original propose un flux de travail en trois étapes.

# 1. Cloner le dépôt d’évaluation
git clone https://github.com/QwenLM/Qwen-AgentWorld.git
cd Qwen-AgentWorld

# 2. Télécharger le jeu de données d’évaluation
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench

# 3. Installer les dépendances
pip install openai

cd eval

# Étape 1 : inférence du modèle de monde
python eval.py infer \
    --data-dir ../AgentWorldBench \
    --model-base-url http://localhost:8000/v1 \
    --model-name Qwen/Qwen-AgentWorld-35B-A3B \
    --output-dir ./results

# Étape 2 : notation par juge LLM. Cela nécessite une clé API OpenAI.
export OPENAI_API_KEY="your-api-key"
python eval.py judge \
    --predictions ./results/predictions.jsonl \
    --judge-base-url https://api.openai.com/v1 \
    --judge-model gpt-5.2-2025-12-11 \
    --output-dir ./results

# Étape 3 : agréger les scores
python eval.py score --predictions ./results/judged.jsonl

Chaque échantillon de test inclut des données d’observation de référence issues d’une exécution en environnement réel. Le benchmark évalue la capacité de modélisation du monde selon le format, la factualité, la cohérence, le réalisme et la qualité.

10. Suggestions d’affinage

Si vous souhaitez personnaliser Qwen-AgentWorld pour un domaine spécifique, l’article original recommande trois cadres d’affinage courants.

Framework	Point fort	Scénario adapté
ms-swift	Forte intégration avec ModelScope	Expérimentations rapides et flux de travail de l’écosystème Alibaba
LLaMA-Factory	Communauté active et large prise en charge des stratégies d’entraînement	Déploiement d’ingénierie pratique
Unsloth	Forte optimisation de la mémoire	Ajustement fin avec ressources limitées

11. Notes sur les sources et gestion des images

L’article original comprend plusieurs images liées aux domaines de Qwen-AgentWorld et aux résultats des benchmarks. Elles ont été conservées dans les sections pertinentes.

Les icônes de la plateforme CSDN, les modules promotionnels, les blocs d’abonnement à l’auteur, les codes QR, les boutons de récompense et les images de recommandation sans rapport ont été supprimés conformément aux exigences de publication.

FAQ

Qu’est-ce que Qwen-AgentWorld ?

Qwen-AgentWorld est un modèle de monde linguistique développé par l’équipe Qwen. Il prédit l’état suivant de l’environnement après qu’un agent a effectué une action, ce qui le rend utile pour la simulation, l’entraînement et l’évaluation d’agents.

Qwen-AgentWorld est-il identique à un modèle de chat classique ?

Non. Un modèle de chat classique est principalement optimisé pour la conversation et le suivi des instructions. Qwen-AgentWorld est entraîné comme simulateur d’environnement ; son principal cas d’utilisation est donc la prédiction des observations dans des environnements d’interaction avec des agents.

Quel modèle Qwen-AgentWorld est disponible publiquement ?

Les pages officielles indiquent Qwen-AgentWorld-35B-A3B comme les poids du modèle publiquement disponibles. AgentWorldBench est également disponible en tant que benchmark d’évaluation. Le modèle plus grand de 397B apparaît dans les tableaux de benchmarks, mais la publication publique du modèle renvoie principalement à la version 35B-A3B.

Qwen-AgentWorld peut-il être déployé avec vLLM ?

Oui. La fiche du modèle Hugging Face inclut un exemple de déploiement avec vLLM. Si vous rencontrez des problèmes d’initialisation, la fiche officielle du modèle recommande d’ajouter --language-model-only, car le checkpoint contient les poids du modèle de langage.

Qwen-AgentWorld peut-il être déployé avec SGLang ?

Oui. SGLang fait partie des options de déploiement recommandées et peut exposer un point de terminaison d’API compatible avec OpenAI. Le modèle peut ensuite être appelé via des requêtes d’API locales.

Pourquoi Qwen-AgentWorld a-t-il besoin d’une longue fenêtre de contexte ?

La simulation d’environnements d’agents dépend souvent de longs historiques d’interactions. Une fenêtre de contexte plus courte peut faire perdre des informations d’état importantes ; les recommandations officielles conseillent donc de conserver au moins 128K jetons lorsque c’est possible.

À quoi sert AgentWorldBench ?

AgentWorldBench est le benchmark publié avec Qwen-AgentWorld. Il évalue les modèles de mondes linguistiques dans sept domaines selon des dimensions telles que le format, la factualité, la cohérence, le réalisme et la qualité.

Qwen-AgentWorld est-il adapté à une utilisation en production ?

Il peut être utile pour la recherche, l’évaluation, la simulation et les expérimentations internes. Pour les systèmes de production, vous devez néanmoins évaluer la latence, le coût matériel, la sécurité, la fiabilité des prompts et déterminer si les résultats simulés correspondent suffisamment à votre environnement réel.

Outils associés

Qwen-AgentWorld GitHub : dépôt officiel du code, des prompts et du flux de travail d’évaluation de Qwen-AgentWorld.
Qwen-AgentWorld-35B-A3B sur Hugging Face : page officielle du modèle pour les poids publics 35B-A3B.
AgentWorldBench : jeu de données de référence officiel pour l’évaluation des modèles de monde linguistiques.
SGLang : framework de service rapide pour les grands modèles de langage.
vLLM : moteur d’inférence à haut débit pour le service des LLM.
Transformers : bibliothèque Hugging Face pour le chargement et l’inférence de modèles en local.
SDK Python OpenAI : client Python capable d’appeler des serveurs de modèles locaux compatibles avec OpenAI.

ms-swift : le framework d’entraînement et de réglage fin de ModelScope pour les flux de travail LLM.

Liens connexes

Rapport technique Qwen-AgentWorld : l’article officiel arXiv présentant le modèle, le benchmark et la configuration d’entraînement.
Blog officiel de Qwen-AgentWorld : l’article officiel de Qwen annonçant le lancement du projet.
Dépôt GitHub de Qwen-AgentWorld : source principale pour les prompts, les scripts d’évaluation et la documentation du projet.
Fiche du modèle Qwen-AgentWorld-35B-A3B : page officielle Hugging Face avec des exemples de déploiement et d’inférence.
Jeu de données AgentWorldBench : jeu de données de benchmark officiel utilisé pour l’évaluation du modèle.
Documentation de SGLang : documentation pour servir des LLM avec SGLang.
Documentation de vLLM : documentation pour l’inférence LLM à haut débit et le service compatible avec OpenAI.

LLaMA-Factory : framework open source populaire pour le fine-tuning des LLM et les expériences de déploiement.

Guide de déploiement de Qwen-AgentWorld : exécuter localement le modèle ouvert de monde linguistique 35B

1. Contexte : pourquoi avons-nous besoin d’un modèle de monde linguistique ?

GitHub : QwenLM/Qwen-AgentWorld

2. Idée centrale : qu’est-ce qui en fait un modèle du monde « natif » ?

Le mot natif est important ici. Qwen-AgentWorld n’est pas simplement un LLM à usage général adapté après l’entraînement pour imiter un environnement. Son objectif de modélisation du monde est intégré au processus d’entraînement dès le départ.

Généralement uniquement SFT ou RL

Cela donne au modèle une compréhension plus structurée de la dynamique des environnements, en particulier lors de la simulation de longues trajectoires d’interaction.

3. Sept domaines : environnements textuels et graphiques dans un seul modèle

Recherche

Terminal

OS

Interface graphique

4. Pipeline d’entraînement en trois étapes

Étape 1 : CPT — Injection de connaissances sur l’environnement

L’article original mentionne également un masque de perte informationnel au niveau des tours de dialogue. L’objectif est d’identifier quels tours de dialogue véhiculent réellement des informations sur l’état de l’environnement et de réduire le bruit provenant des tours moins utiles.

Étape 2 : SFT — Activation du raisonnement en chaîne de pensée

Étape 3 : RL — Amélioration de la fidélité de simulation

Cohérence du contexte

Réalisme

Qualité globale de la simulation

5. Liste des modèles open source

Détails de l’architecture 35B-A3B

Experts activés : 8 experts routés + 1 expert partagé

Longueur du contexte : 262 144 tokens

6. Comparaison des performances : résultats d’AgentWorldBench

Classement complet par score global

Terminal

SE

58.71

29.30

65.63

56.98

46.13

7. Quatre schémas d’application et résultats expérimentaux

Schéma 1 : extension généralisable à des environnements OOD

QwenClawBench

+4.3

Modèle 2 : Simulation contrôlable — Perturbation ciblée par MCP

Modèle 3 : Construction d’un monde fictionnel — Domaine de recherche

Modèle 4 : Modèle fondamental d’agent — Transfert de préchauffage RL LWM

64.88

8. Guide de déploiement rapide

Méthode 1 : Déployer avec SGLang

Méthode 2 : Déployer avec vLLM

Méthode 3 : Inférence locale avec Transformers

Méthode 4 : appel via une API compatible avec OpenAI

Bonnes pratiques

Longueur de sortie recommandée : environ 32,768 jetons pour la plupart des longues observations

9. Flux de travail d’évaluation d’AgentWorldBench

10. Suggestions d’affinage

Si vous souhaitez personnaliser Qwen-AgentWorld pour un domaine spécifique, l’article original recommande trois cadres d’affinage courants.

Framework

11. Notes sur les sources et gestion des images

FAQ

Qu’est-ce que Qwen-AgentWorld ?

Qwen-AgentWorld est-il identique à un modèle de chat classique ?

Quel modèle Qwen-AgentWorld est disponible publiquement ?

Qwen-AgentWorld peut-il être déployé avec vLLM ?

Qwen-AgentWorld peut-il être déployé avec SGLang ?

Pourquoi Qwen-AgentWorld a-t-il besoin d’une longue fenêtre de contexte ?

À quoi sert AgentWorldBench ?

Qwen-AgentWorld est-il adapté à une utilisation en production ?

Outils associés

Liens connexes

Articles similaires

Analyse approfondie de GPT-5.6 : Sol, Terra, Luna, agents natifs, tarification, sécurité et aperçu limité

Meilleurs créateurs de sites web IA optimisés pour le SEO en 2026 : We0 vs Wix vs Framer vs Webflow vs 10Web

Qu’est-ce que Qwen AgentWorld ? Ce que cela signifie pour les agents IA, le déploiement automatisé et la croissance des sites web

Longueur de sortie recommandée : environ `32,768` jetons pour la plupart des longues observations