EN / 中文

技术细节

World-R1:强化 3D 约束的文本到视频生成

1 Zhejiang University 2 Microsoft Research 3 Independent Researcher

* 共同一作 工作完成于微软亚洲研究院实习期间 通讯作者

World-R1 通过强化学习将文本到视频生成与 3D 约束对齐,不改动基础架构,也不增加推理阶段的 3D 控制模块。

训练数据

~3,000

纯文本世界模拟提示词

动态子集

~500

高熵动态场景提示词

3D 一致性

27.67

World-R1-Large 最佳 PSNR

MVCS

0.993

不依赖重建的一致性指标

用户偏好

86%

相对 Wan2.1 的整体胜率

基础模型

1.3B / 14B

Wan2.1 版本,分别使用 48 / 96 张 H200 训练

01

摘要

近期视频基础模型在视觉合成方面表现出色,但仍经常出现几何不一致问题。 现有方法通常通过架构改造注入 3D 先验,但代价较高且可扩展性受限。 我们提出 World-R1,通过强化学习将视频生成过程与 3D 约束对齐。 为支持该对齐过程,我们构建了面向世界模拟的专用纯文本数据集。 基于 Flow-GRPO,我们利用预训练 3D 基础模型与视觉语言模型的反馈进行优化,在不改动底层架构的前提下提升结构一致性。 同时,我们采用周期性解耦训练策略,在刚性几何一致性与动态场景流畅性之间取得平衡。 大量实验表明,该方法在保持原始视觉质量的同时显著提升 3D 一致性,有效弥合了视频生成与可扩展世界模拟之间的差距。

02

方法总览

World-R1 pipeline
文本提示词 -> 隐式相机条件 -> rollout 视频生成 -> 3D 感知与通用奖励 -> Flow-GRPO-Fast 更新。

训练流程

  • 将文本中的相机运动词解析为确定性的相机外参,并投影为稠密光流。
  • 通过离散噪声传输把相机先验注入初始 latent noise,不引入额外控制网络。
  • 使用随机 Flow-GRPO-Fast 采样生成分组 rollout 视频。
  • 利用 Depth Anything 3 将视频提升为 3DGS,并评估 meta-view 合理性、重建保真度与轨迹对齐。
  • 结合 HPSv3 视觉质量反馈,同时周期性地仅用通用奖励训练动态提示词。

03

核心模块

隐式相机条件

将文本中的 push、pull、pan、move、orbit 等运动指令转换为相机轨迹,并通过轨迹引导的 noise wrapping 写入初始噪声。

3D 感知奖励

Depth Anything 3 将视频重建为 3DGS;Qwen3-VL 评估 meta-view,LPIPS 衡量重渲染保真度,轨迹得分检查相机控制。

通用质量奖励

HPSv3 对生成帧进行视觉质量评分,使强化学习对齐在提升几何结构的同时保持审美质量、主体一致性与运动流畅性。

周期性解耦训练

每 100 步临时关闭 3D 感知奖励,仅用通用奖励在约 500 条高熵动态提示词上优化,避免模型过度刚性化。

04

3D 重建诊断

World-R1 生成视频的高质量重建
World-R1 生成的视频可以恢复出稠密、稳定的 3D 场景结构。
几何不一致基线视频的重建失败案例
基线视频中的几何幻觉会导致点云稀疏、重建不稳定和明显伪影。
Meta-view 奖励可视化
Meta-view 评估能揭示原始视角中看似合理、但 3D 上不成立的结构问题。

05

数据集分类

自然景观

  • 地貌
  • 水体景观
  • 天气与时间

城市与建筑

  • 城市场景
  • 室内空间
  • 基础设施

微观与静物

  • 桌面静物
  • 微观世界
  • 材质表现

幻想与超现实

  • 非欧几里得与超现实物理场景

艺术风格

  • 风格化渲染与审美多样性

动态数据子集

  • 用于周期性动态阶段的高熵场景

06

定量结果

3D consistency table
表 1:基于重建的一致性指标评测结果。
VBench results
表 2:VBench 通用视频质量评测结果。
Ablation study
奖励组件与训练策略的消融分析。

3D 重建

27.67 PSNR / 0.865 SSIM / 0.162 LPIPS

World-R1-Large 相比 Wan2.1-T2V-14B 显著提升几何一致性。

Small 版本

+10.23 dB PSNR

World-R1-Small 在 3D 一致性评测中达到 27.63 PSNR 与 0.858 SSIM。

VBench

65.74 审美 / 67.53 成像

RL 对齐后仍保持通用视频质量,并将主体一致性提升到 97.58。

07

人工评测与鲁棒性分析

用户研究

92% 几何 / 76% 控制 / 86% 整体

25 名参与者在 30 条复杂提示词上,以盲测 2AFC 形式比较 World-R1 与 Wan2.1。

指标验证

91.17% 一致

20 名参与者和 30 组随机视频对显示,人工 3D 一致性偏好与自动指标排序高度一致。

长视频

121 帧泛化

相对 Wan2.1-T2V-14B,World-R1-Large 将长视频 PSNR 从 18.32 提升到 26.32。

08

基线对比视频

World-R1 与基线模型在代表性提示词上的对比。