Skip to content

FLAC:基于动能正则化桥匹配的最大熵强化学习

论文FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

作者:Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma

机构:上海智能自主系统研究院、ByteDance Seed、清华大学

发布时间:2026年2月

链接arXiv | 项目主页


一句话总结

FLAC 将 Maximum Entropy RL 与迭代生成式策略(flow matching/diffusion)的结合问题重新建模为 Generalized Schrödinger Bridge (GSB) 问题,用速度场的动能(kinetic energy)作为无似然的熵代理——最小化路径空间动能即可上界终端动作分布与高熵参考的 KL 散度,无需显式密度估计,配合 Lagrangian 对偶自动调参,在 DMControl 和 HumanoidBench 上以仅 NFE=2 达到或超过 DIME(NFE=16)和 SAC-Flow 等基线。


二、问题与动机

2.1 生成式策略的熵困境

迭代生成式策略(diffusion/flow matching)通过多步生成过程将简单噪声分布传输为复杂的状态条件动作分布,相比高斯策略具有更强的表达能力(多模态、高维)。但它们的 logπ(as) 无法直接获得——动作分布仅通过 SDE/ODE 的终端隐式定义。

MaxEnt RL 的核心目标函数为:

JMaxEnt(π)=Eπ[t=0γt(r(st,at)+αH(π(st)))]

其中 H(π)=Eaπ[logπ(as)]。这要求显式计算 logπ(as),对生成式策略不可行。

2.2 现有方法的局限

方法策略熵处理问题
SAC高斯解析 logπ表达能力受限,单模态
DIMEDiffusion变分下界目标函数复杂,NFE=16
SAC-FlowFlow高斯近似熵近似粗糙
Zhang et al.Flow辅助噪声估计网络额外网络+计算

2.3 FLAC 的核心 Insight

根本性视角转换:不在终端动作空间估计熵,而是将策略优化提升到路径空间,建模为 Generalized Schrödinger Bridge 问题。最大熵原则从外部启发式变为从 GSB 框架自然涌现——保持与高熵参考过程的路径空间接近性。

关键理论洞察:速度场的动能可作为路径空间散度的可计算代理,而路径散度严格上界终端分布散度:

DKL(πθμ1ref)DKL(PθPref)=1σ2E(s)

三、预备知识

3.1 迭代生成式策略

动作生成建模为状态条件的 SDE:

dXτ=uθ(s,τ,Xτ)dτ+σdWτ,X0μ0

其中 τ[0,1] 是生成时间,X0 从简单先验采样(高斯或均匀分布),a:=X1 是最终动作。uθ 是可学习的速度场(drift),Wτ 是 Wiener 过程。

3.2 Schrödinger Bridge 问题

经典 SB 问题:找到最接近参考过程 Pref 的路径测度 P,同时匹配两端边际分布:

minPD(PPref)s.t.P0=μ0,P1=μ1

Generalized Schrödinger Bridge (GSB) 将硬终端约束 P1=μ1 松弛为软势能 G(X1),这一推广对 RL 至关重要——终端目标由奖励定义而非样本分布。

3.3 动能与路径约束

动能定义——生成过程中速度场做的期望物理功:

E(s):=E[0112uθ(s,τ,Xτ)2dτ]

随机 regime(σ>0:通过 Girsanov 定理,路径散度正比于动能:

DKL(PθPref)=1σ2E(s)

由数据处理不等式(DPI),终端分布散度被路径散度上界:

DKL(πθμ1ref)1σ2E(s)

确定性 regime(σ0:动能上界 Wasserstein-2 距离(Benamou-Brenier 公式):

W22(μ0,πθ)2E(s)

用大白话说:最小化动能 = 强制策略分布不偏离高熵先验太远,在 SDE 下是信息论保证(KL 上界),在 ODE 下是几何保证(Wasserstein 上界)。


四、核心方法

4.1 GSB 框架下的策略优化

将策略优化建模为 One-Ended GSB 问题:

minPJGSB(P):=αD(PPref)散度代价+EX1P[G(X1)]终端势能s.t.P0=μ0

与经典 SB 的关键区别:终端分布 P1自由的(free-end),仅受软势能 G(X1) 约束。

Proposition 1(最优 GSB 解):最优路径测度的终端边际为指数 tilting 形式:

p(X1)μ1ref(X1)exp(G(X1)α)

μ1ref 为均匀分布时,恢复 Boltzmann 最优策略 π(as)exp(Q(s,a)/α)——与 SAC 的 MaxEnt 最优策略完全一致。

4.2 FLAC 目标函数

将 GSB 框架实例化:

  • 散度代价 → 动能 E
  • 终端势能 → 负折扣回报 Gs(X1)=R(s,X1)

得到 FLAC 训练目标:

minθJFLAC(θ)=EPθ[α0112uθ(s,τ,Xτ)2dτ最小化动能R(s,X1)最大化回报]

"Least-Kinetic"的物理直觉:参考过程(布朗运动)的 drift 为零(零动能)。最小化动能迫使策略仅在必要时才偏离先验的固有随机性——用最小控制力将概率质量引导至高价值区域。

4.3 Energy-Regularized Policy Iteration

Policy Evaluation——能量正则化 Bellman 算子:

(TπQ)(s,a):=r(s,a)+γE[Q(s,a)αEπ(s)]

Proposition 2TπL 范数下是 γ-压缩映射,迭代收敛到唯一的正则化值函数 Qπ

Policy Improvement

πargmaxπEsD[Eaπ(|s)[Qπ(s,a)]αEπ(s)]

Proposition 3:单调改进保证 JGSB(πnew)JGSB(π)

4.4 实际算法

Critic 更新——目标值:

y=r+γ(mini=1,2Qψ¯i(s,a)αE^θ(s))

Actor 更新——通过可微求解器反传梯度:

Jπ(θ)=EsB[αE^θ(s)Qψ(s,a)]

动能 E^θ 在数值求解 SDE/ODE 时同时离散化计算,无额外开销。

4.5 Automatic Energy Tuning

指定目标动能预算 Etgt(几何启发式:Etgt=Cdim(A),默认 C=0.5),通过 Lagrangian 对偶自动调参:

minα0maxπL(π,α)=E[Qπ(s,a)α(E^π(s)Etgt)]

对偶变量更新:

logαlogαβEsB[Etgtstopgrad(E^θ(s))]

训练动态:logα 呈现"先降后升"模式——早期放松约束允许激进学习,后期收紧约束迫使策略贴近先验,防止模式坍缩。


五、实验结果

5.1 主实验

在 DMControl(Dog/Humanoid 高维域)和 HumanoidBench(Unitree H1 人形机器人)上评估。

FLAC 使用 NFE=2(每次动作仅 2 步 ODE 求解),远低于 DIME 的 NFE=16 和 SAC-Flow 的 NFE=4。

关键结果:

  • DMC DogsR223,aR38):FLAC 在 dog_run/dog_trot 上匹配或超越所有 model-free 基线,接近 model-based TD-MPC2
  • HumanoidBench H1:h1-walk/h1-stand/h1-reach 等任务上表现最优或并列,h1-crawl/h1-pole 上超越 SAC 和 FlowRL
  • 整体上 FLAC 达到或超越 DIME(NFE=16),且不依赖 cross Q-learning 增强

5.2 2D 多目标 Toy 示例

8 个目标的多模态 bandit 问题,直观展示动能正则化的效果:

  • Naive Flow(无正则化):高速度场(高动能)压倒噪声 → 坍缩到单模态(1/8 覆盖)
  • FLAC:低能量速度场保持随机性 → 覆盖全部 8 个模态(8/8 覆盖)

5.3 消融实验

目标动能预算敏感性C{0,0.1,0.5,1.0,2.5}

  • C=0(零动能预算):策略被迫完全随机,性能极差——验证了动能约束确实有效控制策略偏离
  • C[0.5,2.5]:性能稳健,对具体值不敏感
  • 自动调参一致优于固定 α

NFE 敏感性

  • NFE=2/4/10 最终性能差异极小
  • 高 NFE 仅加速早期收敛
  • 原因:动能正则化偏好低能量轨迹 → 接近直线传输 → 少量步数即可准确求解

计算效率:FLAC(PyTorch + torch.compile,NFE=2)在 wall-clock time 上优于 DIME(JAX,NFE=16)。


六、局限性与未来方向

  1. 各向同性正则化:当前对所有动作维度施加相同的动能约束,但不同关节/执行器可能需要不同程度的随机性。未来方向:各向异性或状态依赖的动能约束

  2. 确定性极限无严格熵保证:ODE regime 下动能上界 W2 距离但不严格保证高终端熵。在实践中,神经网络的 spectral bias 使学到的传输保持正则,但理论缺口仍存在

  3. 仅评估连续控制 benchmark:未在离线 RL、机器人操作等实际场景验证。FLAC 的 GSB 视角原则上适用于任何使用生成式策略的 RL 任务

  4. 动能估计依赖 ODE/SDE 离散化精度:NFE=2 下 Midpoint Euler 可能引入估计偏差,但实验显示影响有限


七、个人思考

7.1 GSB 视角的理论优雅性

FLAC 最深刻的贡献是将 MaxEnt RL 从"在动作空间估计和最大化熵"转变为"在路径空间最小化与高熵参考的散度"。这一视角转换有三个优势:(1) 完全绕过了 logπ(a|s) 的计算——整个框架是 likelihood-free 的;(2) 动能是 ODE/SDE 求解过程中自然产生的量,无需额外网络或估计;(3) 通过 Proposition 1 将 GSB 最优解直接对应到 Boltzmann 策略形式,建立了与 SAC 的理论桥梁。

7.2 与 SAC 的关系

FLAC 可以被理解为 SAC 在生成式策略空间中的"自然推广":SAC 直接最大化高斯策略的解析熵,FLAC 最小化 flow 策略的路径动能——两者在理论上收敛到相同的 Boltzmann 最优策略。Energy-regularized Bellman 算子(Eq. 11)与 SAC 的 soft Bellman 算子结构对称:SAC 用 +αH,FLAC 用 αE,但效果等价。

7.3 NFE=2 的实践意义

FLAC 仅需 2 步 ODE 求解就能与 DIME(16 步)竞争,这一结果非常重要。原因在于动能正则化的自我一致性:低能量策略天然偏好接近直线的传输路径,而直线传输恰好只需少量离散化步数即可准确模拟。这形成了一个良性循环——正则化使策略更简单,更简单的策略需要更少的计算。

7.4 与 VLA RL 后训练的潜在联系

FLAC 的框架原则上可以扩展到 VLA 领域。当前 VLA 的 flow-matching 动作头(如 π0、Being-H0.5)面临类似的问题——RL 微调时需要策略似然来计算策略梯度,但 flow 动作头不提供似然。FLAC 的动能正则化提供了一个替代方案:用动能代替熵正则化,绕过似然计算。这与项目中 SAC Flow 的目标高度相关——SAC Flow 通过 velocity reparameterization 解决 flow 策略的 RL 训练问题,而 FLAC 通过 GSB 框架从根本上避免了似然需求。

7.5 动能作为通用正则化原则

FLAC 揭示了一个可能被低估的观察:复杂的确定性策略(高动能 = 高速度场 = 大幅传输概率质量)与过拟合/模式坍缩高度相关。动能正则化本质上是对"策略复杂度"的一种物理直觉约束——用最少的控制力达成目标。这一原则(least action)在物理学中有深厚的根基,FLAC 将其成功引入 RL。


参考

  • SAC — Soft Actor-Critic,MaxEnt RL 的经典方法,FLAC 的理论起点
  • DIME — Diffusion-based MaxEnt RL,通过变分下界估计 diffusion 策略的熵
  • GSB — Generalized Schrödinger Bridge Matching,FLAC 理论框架的直接来源
  • Flow Matching — Lipman et al. 的 flow matching 框架,FLAC 策略的底层生成模型
  • Benamou-Brenier — 计算流体力学视角的最优传输,动能与 W2 距离的联系
  • FlowRL — 同组工作,Flow-based policy for online RL