技术细节

World-R1：强化 3D 约束的文本到视频生成

Weijie Wang^1,2,*,† Xiaoxuan He^1,* Youping Gu^1,* Yifan Yang^2,‡ Zeyu Zhang³ Yefei He¹ Yanbo Ding² Xirui Hu³ Donny Y. Chen³ Zhiyuan He² Yuqing Yang^2,‡ Bohan Zhuang^1,‡

¹ Zhejiang University ² Microsoft Research ³ Independent Researcher

^* 共同一作 ^† 工作完成于微软亚洲研究院实习期间 ^‡ 通讯作者

World-R1 通过强化学习将文本到视频生成与 3D 约束对齐，不改动基础架构，也不增加推理阶段的 3D 控制模块。

训练数据

~3,000

纯文本世界模拟提示词

动态子集

~500

高熵动态场景提示词

3D 一致性

27.67

World-R1-Large 最佳 PSNR

MVCS

0.993

不依赖重建的一致性指标

用户偏好

86%

相对 Wan2.1 的整体胜率

基础模型

1.3B / 14B

Wan2.1 版本，分别使用 48 / 96 张 H200 训练

摘要

近期视频基础模型在视觉合成方面表现出色，但仍经常出现几何不一致问题。现有方法通常通过架构改造注入 3D 先验，但代价较高且可扩展性受限。我们提出 World-R1，通过强化学习将视频生成过程与 3D 约束对齐。为支持该对齐过程，我们构建了面向世界模拟的专用纯文本数据集。基于 Flow-GRPO，我们利用预训练 3D 基础模型与视觉语言模型的反馈进行优化，在不改动底层架构的前提下提升结构一致性。同时，我们采用周期性解耦训练策略，在刚性几何一致性与动态场景流畅性之间取得平衡。大量实验表明，该方法在保持原始视觉质量的同时显著提升 3D 一致性，有效弥合了视频生成与可扩展世界模拟之间的差距。

方法总览

World-R1 pipeline — 文本提示词 -> 隐式相机条件 -> rollout 视频生成 -> 3D 感知与通用奖励 -> Flow-GRPO-Fast 更新。

训练流程

将文本中的相机运动词解析为确定性的相机外参，并投影为稠密光流。
通过离散噪声传输把相机先验注入初始 latent noise，不引入额外控制网络。
使用随机 Flow-GRPO-Fast 采样生成分组 rollout 视频。
利用 Depth Anything 3 将视频提升为 3DGS，并评估 meta-view 合理性、重建保真度与轨迹对齐。
结合 HPSv3 视觉质量反馈，同时周期性地仅用通用奖励训练动态提示词。

核心模块

隐式相机条件

将文本中的 push、pull、pan、move、orbit 等运动指令转换为相机轨迹，并通过轨迹引导的 noise wrapping 写入初始噪声。

3D 感知奖励

Depth Anything 3 将视频重建为 3DGS；Qwen3-VL 评估 meta-view，LPIPS 衡量重渲染保真度，轨迹得分检查相机控制。

通用质量奖励

HPSv3 对生成帧进行视觉质量评分，使强化学习对齐在提升几何结构的同时保持审美质量、主体一致性与运动流畅性。

周期性解耦训练

每 100 步临时关闭 3D 感知奖励，仅用通用奖励在约 500 条高熵动态提示词上优化，避免模型过度刚性化。

3D 重建诊断

World-R1 生成视频的高质量重建 — World-R1 生成的视频可以恢复出稠密、稳定的 3D 场景结构。

几何不一致基线视频的重建失败案例 — 基线视频中的几何幻觉会导致点云稀疏、重建不稳定和明显伪影。

Meta-view 奖励可视化 — Meta-view 评估能揭示原始视角中看似合理、但 3D 上不成立的结构问题。

数据集分类

自然景观

地貌
水体景观
天气与时间

城市与建筑

城市场景
室内空间
基础设施

微观与静物

桌面静物
微观世界
材质表现

幻想与超现实

非欧几里得与超现实物理场景

艺术风格

风格化渲染与审美多样性

动态数据子集

用于周期性动态阶段的高熵场景

定量结果

3D consistency table — 表 1：基于重建的一致性指标评测结果。

3D 重建

27.67 PSNR / 0.865 SSIM / 0.162 LPIPS

World-R1-Large 相比 Wan2.1-T2V-14B 显著提升几何一致性。

Small 版本

+10.23 dB PSNR

World-R1-Small 在 3D 一致性评测中达到 27.63 PSNR 与 0.858 SSIM。

VBench

65.74 审美 / 67.53 成像

RL 对齐后仍保持通用视频质量，并将主体一致性提升到 97.58。

人工评测与鲁棒性分析

用户研究

92% 几何 / 76% 控制 / 86% 整体

25 名参与者在 30 条复杂提示词上，以盲测 2AFC 形式比较 World-R1 与 Wan2.1。

指标验证

91.17% 一致

20 名参与者和 30 组随机视频对显示，人工 3D 一致性偏好与自动指标排序高度一致。

长视频

121 帧泛化

相对 Wan2.1-T2V-14B，World-R1-Large 将长视频 PSNR 从 18.32 提升到 26.32。

基线对比视频

World-R1 与基线模型在代表性提示词上的对比。