北大与字节团队BranchGRPO，「树形分叉 + 剪枝」重塑扩散模型

扩散 / 流匹配模型的人类偏好对齐中，实现高效采样与稳定优化的统一，一直是一个重大挑战。

近期，北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO，BranchGRPO 通过在扩散反演过程中引入分叉（branching）与剪枝（pruning），让多个轨迹共享前缀、在中间步骤分裂，并通过逐层奖励融合实现稠密反馈。

该方法在 HPDv2.1 图像对齐与 WanX-1.3B 视频生成上均取得了优异表现。最令人瞩目的是，BranchGRPO 在保证对齐效果更优的同时，迭代时间最高近 5×（Mix 变体 148s vs 698s）。

研究背景与挑战

近年来，扩散模型与流匹配模型凭借在图像与视频生成上的高保真、多样性与可控性，已成为视觉生成的主流方案。然而，仅靠大规模预训练并不能保证与人类意图完全对齐：模型生成的结果常常偏离美学、语义或时间一致性的需求。

为解决这一问题，「人类反馈强化学习（RLHF）」被引入，用以直接优化生成模型，使其输出更贴近人类偏好。

在 RLHF 体系中，「群体相对策略优化（GRPO）」被证明在图生文、文生图和视频生成中具有良好的稳定性与可扩展性。然而，当 GRPO 应用于扩散 / 流模型时，依旧面临两大根本性瓶颈：

低效性：标准 GRPO 采用顺序 rollout，每条轨迹必须在旧策略和新策略下独立采样，复杂度达到 O (N×T)（其中 T 是扩散步数，N 是组大小）。这种重复采样带来大量计算冗余，严重限制了大规模生成任务的扩展性。

稀疏奖励：现有方法通常只在最终生成结果上计算单一奖励，并将其均匀回传至所有步。这种 “稀疏且均匀” 的反馈忽视了中间状态中蕴含的关键信号，导致 credit assignment 不准确，训练波动大、收敛不稳，甚至出现高方差梯度。

因此，一个关键问题被提出：如何在不破坏多样性的前提下，既提升采样效率，又让奖励信号更稠密、更稳定地作用于训练过程？

正是在这一背景下，我们提出了 BranchGRPO。通过树形分叉、奖励融合与剪枝机制，BranchGRPO 做到了「又快又稳、又强又准」，为大规模视觉生成对齐开辟了新路径。

今日新闻更多>>