FLAC：基于动能正则化桥匹配的最大熵强化学习

论文：FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching
作者：Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma
机构：上海智能自主系统研究院、ByteDance Seed、清华大学
发布时间：2026年2月
链接：arXiv | 项目主页

一句话总结

FLAC 将 Maximum Entropy RL 与迭代生成式策略（flow matching/diffusion）的结合问题重新建模为 Generalized Schrödinger Bridge (GSB) 问题，用速度场的动能（kinetic energy）作为无似然的熵代理——最小化路径空间动能即可上界终端动作分布与高熵参考的 KL 散度，无需显式密度估计，配合 Lagrangian 对偶自动调参，在 DMControl 和 HumanoidBench 上以仅 NFE=2 达到或超过 DIME（NFE=16）和 SAC-Flow 等基线。

二、问题与动机

2.1 生成式策略的熵困境

迭代生成式策略（diffusion/flow matching）通过多步生成过程将简单噪声分布传输为复杂的状态条件动作分布，相比高斯策略具有更强的表达能力（多模态、高维）。但它们的 $\log π (a ∣ s)$ 无法直接获得——动作分布仅通过 SDE/ODE 的终端隐式定义。

MaxEnt RL 的核心目标函数为：

J_{MaxEnt} (π) = E_{π} [\sum_{t = 0}^{\infty} γ^{t} (r (s_{t}, a_{t}) + α H (π (\cdot ∣ s_{t})))]

其中 $H (π) = - E_{a \sim π} [\log π (a ∣ s)]$ 。这要求显式计算 $\log π (a ∣ s)$ ，对生成式策略不可行。

2.2 现有方法的局限

方法	策略	熵处理	问题
SAC	高斯	解析 $\log π$	表达能力受限，单模态
DIME	Diffusion	变分下界	目标函数复杂，NFE=16
SAC-Flow	Flow	高斯近似熵	近似粗糙
Zhang et al.	Flow	辅助噪声估计网络	额外网络+计算

2.3 FLAC 的核心 Insight

根本性视角转换：不在终端动作空间估计熵，而是将策略优化提升到路径空间，建模为 Generalized Schrödinger Bridge 问题。最大熵原则从外部启发式变为从 GSB 框架自然涌现——保持与高熵参考过程的路径空间接近性。

关键理论洞察：速度场的动能可作为路径空间散度的可计算代理，而路径散度严格上界终端分布散度：

D_{KL} (π_{θ} ∥ μ_{1}^{ref}) \leq D_{KL} (P^{θ} ∥ P^{ref}) = \frac{1}{σ^{2}} E (s)

三、预备知识

3.1 迭代生成式策略

动作生成建模为状态条件的 SDE：

d X_{τ} = u_{θ} (s, τ, X_{τ}) d τ + σ d W_{τ}, X_{0} \sim μ_{0}

其中 $τ \in [0, 1]$ 是生成时间， $X_{0}$ 从简单先验采样（高斯或均匀分布）， $a := X_{1}$ 是最终动作。 $u_{θ}$ 是可学习的速度场（drift）， $W_{τ}$ 是 Wiener 过程。

3.2 Schrödinger Bridge 问题

经典 SB 问题：找到最接近参考过程 $P^{ref}$ 的路径测度 $P^{*}$ ，同时匹配两端边际分布：

min_{P} D (P ∥ P^{ref}) s.t. P_{0} = μ_{0}, P_{1} = μ_{1}

Generalized Schrödinger Bridge (GSB) 将硬终端约束 $P_{1} = μ_{1}$ 松弛为软势能 $G (X_{1})$ ，这一推广对 RL 至关重要——终端目标由奖励定义而非样本分布。

3.3 动能与路径约束

动能定义——生成过程中速度场做的期望物理功：

E (s) := E [\int_{0}^{1} \frac{1}{2} ∥ u_{θ} (s, τ, X_{τ}) ∥^{2} d τ]

随机 regime（ $σ > 0$ ）：通过 Girsanov 定理，路径散度正比于动能：

D_{KL} (P^{θ} ∥ P^{ref}) = \frac{1}{σ^{2}} E (s)

由数据处理不等式（DPI），终端分布散度被路径散度上界：

D_{KL} (π_{θ} ∥ μ_{1}^{ref}) \leq \frac{1}{σ^{2}} E (s)

确定性 regime（ $σ \to 0$ ）：动能上界 Wasserstein-2 距离（Benamou-Brenier 公式）：

W_{2}^{2} (μ_{0}, π_{θ}) \leq 2 E (s)

用大白话说：最小化动能 = 强制策略分布不偏离高熵先验太远，在 SDE 下是信息论保证（KL 上界），在 ODE 下是几何保证（Wasserstein 上界）。

四、核心方法

4.1 GSB 框架下的策略优化

将策略优化建模为 One-Ended GSB 问题：

min_{P} J_{GSB} (P) := α \underset{散度代价}{\underset{⏟}{D (P ∥ P^{ref})}} + \underset{终端势能}{\underset{⏟}{E_{X_{1} \sim P} [G (X_{1})]}} s.t. P_{0} = μ_{0}

与经典 SB 的关键区别：终端分布 $P_{1}$ 是自由的（free-end），仅受软势能 $G (X_{1})$ 约束。

Proposition 1（最优 GSB 解）：最优路径测度的终端边际为指数 tilting 形式：

p^{*} (X_{1}) \propto μ_{1}^{ref} (X_{1}) \cdot \exp (- \frac{G (X_{1})}{α})

当 $μ_{1}^{ref}$ 为均匀分布时，恢复 Boltzmann 最优策略 $π^{*} (a ∣ s) \propto \exp (Q (s, a) / α)$ ——与 SAC 的 MaxEnt 最优策略完全一致。

4.2 FLAC 目标函数

将 GSB 框架实例化：

散度代价 → 动能 $E$
终端势能 → 负折扣回报 $G_{s} (X_{1}) = - R (s, X_{1})$

得到 FLAC 训练目标：

min_{θ} J_{FLAC} (θ) = E_{P^{θ}} [α \underset{最小化动能}{\underset{⏟}{\int_{0}^{1} \frac{1}{2} ∥ u_{θ} (s, τ, X_{τ}) ∥^{2} d τ}} \underset{最大化回报}{\underset{⏟}{- R (s, X_{1})}}]

"Least-Kinetic"的物理直觉：参考过程（布朗运动）的 drift 为零（零动能）。最小化动能迫使策略仅在必要时才偏离先验的固有随机性——用最小控制力将概率质量引导至高价值区域。

4.3 Energy-Regularized Policy Iteration

Policy Evaluation——能量正则化 Bellman 算子：

(T^{π} Q) (s, a) := r (s, a) + γ E [Q (s^{'}, a^{'}) - α E_{π} (s^{'})]

Proposition 2： $T^{π}$ 在 $L^{\infty}$ 范数下是 $γ$ -压缩映射，迭代收敛到唯一的正则化值函数 $Q^{π}$ 。

Policy Improvement：

π \leftarrow \arg max_{π} E_{s \sim D} [E_{a \sim π (\cdot | s)} [Q^{π} (s, a)] - α E_{π} (s)]

Proposition 3：单调改进保证 $J_{GSB} (π_{new}) \geq J_{GSB} (π)$ 。

4.4 实际算法

Critic 更新——目标值：

y = r + γ (min_{i = 1, 2} Q_{{\bar{ψ}}_{i}} (s^{'}, a^{'}) - α {\hat{E}}_{θ} (s^{'}))

Actor 更新——通过可微求解器反传梯度：

J_{π} (θ) = E_{s \sim B} [α {\hat{E}}_{θ} (s) - Q_{ψ} (s, a)]

动能 ${\hat{E}}_{θ}$ 在数值求解 SDE/ODE 时同时离散化计算，无额外开销。

4.5 Automatic Energy Tuning

指定目标动能预算 $E_{tgt}$ （几何启发式： $E_{tgt} = C \cdot \dim (A)$ ，默认 $C = 0.5$ ），通过 Lagrangian 对偶自动调参：

min_{α \geq 0} max_{π} L (π, α) = E [Q^{π} (s, a) - α ({\hat{E}}_{π} (s) - E_{tgt})]

对偶变量更新：

\log α \leftarrow \log α - β \cdot E_{s \sim B} [E_{tgt} - stopgrad ({\hat{E}}_{θ} (s))]

训练动态： $\log α$ 呈现"先降后升"模式——早期放松约束允许激进学习，后期收紧约束迫使策略贴近先验，防止模式坍缩。

五、实验结果

5.1 主实验

在 DMControl（Dog/Humanoid 高维域）和 HumanoidBench（Unitree H1 人形机器人）上评估。

FLAC 使用 NFE=2（每次动作仅 2 步 ODE 求解），远低于 DIME 的 NFE=16 和 SAC-Flow 的 NFE=4。

关键结果：

DMC Dog（ $s \in R^{223}, a \in R^{38}$ ）：FLAC 在 dog_run/dog_trot 上匹配或超越所有 model-free 基线，接近 model-based TD-MPC2
HumanoidBench H1：h1-walk/h1-stand/h1-reach 等任务上表现最优或并列，h1-crawl/h1-pole 上超越 SAC 和 FlowRL
整体上 FLAC 达到或超越 DIME（NFE=16），且不依赖 cross Q-learning 增强

5.2 2D 多目标 Toy 示例

8 个目标的多模态 bandit 问题，直观展示动能正则化的效果：

Naive Flow（无正则化）：高速度场（高动能）压倒噪声 → 坍缩到单模态（1/8 覆盖）
FLAC：低能量速度场保持随机性 → 覆盖全部 8 个模态（8/8 覆盖）

5.3 消融实验

目标动能预算敏感性： $C \in {0, 0.1, 0.5, 1.0, 2.5}$

$C = 0$ （零动能预算）：策略被迫完全随机，性能极差——验证了动能约束确实有效控制策略偏离
$C \in [0.5, 2.5]$ ：性能稳健，对具体值不敏感
自动调参一致优于固定 $α$

NFE 敏感性：

NFE=2/4/10 最终性能差异极小
高 NFE 仅加速早期收敛
原因：动能正则化偏好低能量轨迹 → 接近直线传输 → 少量步数即可准确求解

计算效率：FLAC（PyTorch + torch.compile，NFE=2）在 wall-clock time 上优于 DIME（JAX，NFE=16）。

六、局限性与未来方向

各向同性正则化：当前对所有动作维度施加相同的动能约束，但不同关节/执行器可能需要不同程度的随机性。未来方向：各向异性或状态依赖的动能约束
确定性极限无严格熵保证：ODE regime 下动能上界 $W_{2}$ 距离但不严格保证高终端熵。在实践中，神经网络的 spectral bias 使学到的传输保持正则，但理论缺口仍存在
仅评估连续控制 benchmark：未在离线 RL、机器人操作等实际场景验证。FLAC 的 GSB 视角原则上适用于任何使用生成式策略的 RL 任务
动能估计依赖 ODE/SDE 离散化精度：NFE=2 下 Midpoint Euler 可能引入估计偏差，但实验显示影响有限

七、个人思考

7.1 GSB 视角的理论优雅性

FLAC 最深刻的贡献是将 MaxEnt RL 从"在动作空间估计和最大化熵"转变为"在路径空间最小化与高熵参考的散度"。这一视角转换有三个优势：(1) 完全绕过了 $\log π (a | s)$ 的计算——整个框架是 likelihood-free 的；(2) 动能是 ODE/SDE 求解过程中自然产生的量，无需额外网络或估计；(3) 通过 Proposition 1 将 GSB 最优解直接对应到 Boltzmann 策略形式，建立了与 SAC 的理论桥梁。

7.2 与 SAC 的关系

FLAC 可以被理解为 SAC 在生成式策略空间中的"自然推广"：SAC 直接最大化高斯策略的解析熵，FLAC 最小化 flow 策略的路径动能——两者在理论上收敛到相同的 Boltzmann 最优策略。Energy-regularized Bellman 算子（Eq. 11）与 SAC 的 soft Bellman 算子结构对称：SAC 用 $+ α H$ ，FLAC 用 $- α E$ ，但效果等价。

7.3 NFE=2 的实践意义

FLAC 仅需 2 步 ODE 求解就能与 DIME（16 步）竞争，这一结果非常重要。原因在于动能正则化的自我一致性：低能量策略天然偏好接近直线的传输路径，而直线传输恰好只需少量离散化步数即可准确模拟。这形成了一个良性循环——正则化使策略更简单，更简单的策略需要更少的计算。

7.4 与 VLA RL 后训练的潜在联系

FLAC 的框架原则上可以扩展到 VLA 领域。当前 VLA 的 flow-matching 动作头（如 $π_{0}$ 、Being-H0.5）面临类似的问题——RL 微调时需要策略似然来计算策略梯度，但 flow 动作头不提供似然。FLAC 的动能正则化提供了一个替代方案：用动能代替熵正则化，绕过似然计算。这与项目中 SAC Flow 的目标高度相关——SAC Flow 通过 velocity reparameterization 解决 flow 策略的 RL 训练问题，而 FLAC 通过 GSB 框架从根本上避免了似然需求。

7.5 动能作为通用正则化原则

FLAC 揭示了一个可能被低估的观察：复杂的确定性策略（高动能 = 高速度场 = 大幅传输概率质量）与过拟合/模式坍缩高度相关。动能正则化本质上是对"策略复杂度"的一种物理直觉约束——用最少的控制力达成目标。这一原则（least action）在物理学中有深厚的根基，FLAC 将其成功引入 RL。

参考

SAC — Soft Actor-Critic，MaxEnt RL 的经典方法，FLAC 的理论起点
DIME — Diffusion-based MaxEnt RL，通过变分下界估计 diffusion 策略的熵
GSB — Generalized Schrödinger Bridge Matching，FLAC 理论框架的直接来源
Flow Matching — Lipman et al. 的 flow matching 框架，FLAC 策略的底层生成模型
Benamou-Brenier — 计算流体力学视角的最优传输，动能与 $W_{2}$ 距离的联系
FlowRL — 同组工作，Flow-based policy for online RL

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

FLAC：基于动能正则化桥匹配的最大熵强化学习 ​

一句话总结 ​

二、问题与动机 ​

2.1 生成式策略的熵困境 ​

2.2 现有方法的局限 ​

2.3 FLAC 的核心 Insight ​

三、预备知识 ​

3.1 迭代生成式策略 ​

3.2 Schrödinger Bridge 问题 ​

3.3 动能与路径约束 ​

四、核心方法 ​

4.1 GSB 框架下的策略优化 ​

4.2 FLAC 目标函数 ​

4.3 Energy-Regularized Policy Iteration ​

4.4 实际算法 ​

4.5 Automatic Energy Tuning ​

五、实验结果 ​

5.1 主实验 ​

5.2 2D 多目标 Toy 示例 ​

5.3 消融实验 ​

六、局限性与未来方向 ​

七、个人思考 ​

7.1 GSB 视角的理论优雅性 ​

7.2 与 SAC 的关系 ​

7.3 NFE=2 的实践意义 ​

7.4 与 VLA RL 后训练的潜在联系 ​

7.5 动能作为通用正则化原则 ​

参考 ​