🌍 从玻尔兹曼密度采样到费舍-拉奥曲线漫步：在瓦瑟斯坦几何中的探索

😎 引言：让我们从概率密度到量子力学的「采样之旅」

在人类探索复杂系统的过程中，玻尔兹曼密度（Boltzmann Density）时常扮演着主角。它不仅用于描述热力学的平衡状态，还在现代机器学习中大放异彩。尤其是当我们需要从一个未归一化的玻尔兹曼密度 $\rho_D = e^{-f_D} / Z_D$（其中 $Z_D$ 是未知的归一化常数）进行采样时，挑战尤为明显。这就好比在一座神秘的森林中穿行，虽知方向，却不知终点有多远。为了完成这个任务，科学家们发明了各种方法，仿佛为我们提供了一条条不同的路径。本文的主角便是其中之一——通过学习费舍-拉奥曲线 (Fisher-Rao Curve)，我们能在瓦瑟斯坦几何 (Wasserstein Geometry) 的框架下，找到平滑的采样路径。

🎯 核心问题：从简单到复杂，如何「优雅」地采样？

在这篇文章中，作者们提出了一种通过学习路径 $\rho_t = e^{-f_t} / Z_t$ 来从简单密度 $\rho_Z$ 到目标密度 $\rho_D$ 的采样方法。这条路径上的速度场 $v_t$ 是关键，它描述了如何从一个简单的初始分布逐步演化到目标分布。问题在于，如何确保路径的平滑性，并防止「质量瞬移」（teleportation of mass）——即粒子在空间中突然跳跃，而非平滑地移动。

为了理解这一问题，我们可以用比喻来说明：想象一下，你站在山脚下，想要通过一条小路爬到山顶（也就是目标分布 $\rho_D$）。然而，如果小路突然中断，你只能用火箭喷射自己到达下一个平台——这就是「质量瞬移」问题。显然，这不是我们想要的。我们希望找到一条平滑的、连续的路径。

🧠 费舍-拉奥曲线与瓦瑟斯坦几何的「牵手」

为了避免上述问题，我们引入了费舍-拉奥流 (Fisher-Rao Flow)，它在瓦瑟斯坦几何中具有重要意义。瓦瑟斯坦几何可以理解为一种「最佳运输」理论，它描述了如何以最小的代价将一个概率分布演化为另一个概率分布。这就像在两座城市之间修建一条最短的公路，既要考虑距离，还要考虑地形的复杂性。

在费舍-拉奥曲线中，密度 $\rho_t$ 的演化是通过解以下的偏微分方程来描述的：

$\partial_t \rho_t = (\alpha_t - \bar{\alpha}_t) \rho_t$

其中，$\alpha_t$ 是某个与时间相关的函数，而 $\bar{\alpha}_t$ 则是 $\alpha_t$ 的期望值。更进一步地，作者们通过数学证明表明，在某些适当的条件下，费舍-拉奥曲线不仅是绝对连续的，还满足瓦瑟斯坦几何中的连续性方程。这意味着我们可以平滑地从 $\rho_Z$ 演化到 $\rho_D$，避免了「瞬移」问题。

🔧 不同路径的比较：线性插值、学习插值与梯度流插值

在这篇文章中，作者们提出了三种不同的插值方法来构造路径 $\rho_t$，并对这些方法的效果进行了详细比较。

线性插值：最简单的方式是直接在初始能量 $f_Z$ 和目标能量 $f_D$ 之间进行线性插值，即：

$f_t = (1 - t) f_Z + t f_D$

这种方式的最大问题在于，它容易出现「质量瞬移」问题，特别是当目标分布 $\rho_D$ 的形状与初始分布 $\rho_Z$ 差异很大时。想象一下，如果目标分布有多个峰值，而初始分布相对平滑，粒子可能会突然跳跃到远处的某个峰值，从而导致路径的不连续性。
学习插值：另一种方式是引入额外的参数 $\psi_t$，并同时学习速度场 $v_t$ 和能量函数 $f_t$：

$f_t = (1 - t) f_Z + t f_D + t(1 - t) \psi_t$

这种方法通过神经网络学习最优路径，尽管在实际中效果不错，但理论上难以保证其路径的平滑性和最优性。
梯度流插值：作者提出了一种更具理论基础的插值方法，被称为「梯度流插值」 (Gradient Flow Interpolation)。在这种方法中，能量函数被参数化为：

$f_t = \frac{T - t}{T} f_D + t \psi_t$
速度场则固定为 $v_t = \nabla(f_t - f_Z. $，这使得路径变得更加平滑，并且可以被描述为与朗之万动力学 (Langevin Dynamics) 相关的 Fokker-Planck 方程的解。✅

📈 数值实验：谁是采样的「王者」？

为了验证这些方法的有效性，作者们进行了大量的数值实验。以下是其中一个实验的结果：

pie
    title 不同插值方法的有效样本率
    "线性插值": 18.3
    "学习插值": 60.5
    "梯度流插值": 99.2

如上图所示，梯度流插值的表现远远优于其他两种方法，几乎达到了完美的采样效果。这表明，在高维复杂分布的采样任务中，梯度流插值能够更好地平滑路径，避免「瞬移」问题。

🎉 结论与展望：从理论到实践，采样路径的未来

通过本文的研究，作者们成功证明了在适当条件下，费舍-拉奥曲线可以在瓦瑟斯坦几何中构造出绝对连续且平滑的采样路径。相比于传统的线性插值方法，梯度流插值在理论和实验上都表现出了优越性。这不仅为从复杂的概率分布中采样提供了新思路，也为未来的生成模型研究奠定了基础。

然而，本文的研究也有其局限性。例如，解决高维偏微分方程的计算复杂度依然是一个挑战。此外，对于梯度流路径的进一步理论分析，特别是速度场的正则性，仍需要更深入的研究。

📚 参考文献

Ambrosio, L. , Gigli, N., & Savaré, G. (2005). ✅Gradient flows in metric spaces and in the space of probability measures.
Maté, D. , & Fleuret, F. (2023). ✅Wasserstein Gradient Flows for Probability Matching.
Chemseddine, J. , Wald, C., & Steidl, G. (2024). ✅Neural Sampling from Boltzmann Densities: Fisher-Rao Curves in the Wasserstein Geometry.
Girolami, M. , & Calderhead, B. (2011). ✅Riemann manifold Langevin and Hamiltonian Monte Carlo methods.
Liu, Q. , & Wang, D. (2016). ✅Stein variational gradient descent: A general purpose Bayesian inference algorithm.