从机器人 Mink 到生成模型 MeanFlow：都在利用“二阶信息”来进行修正吗？

mink: https://github.com/kevinzakka/mink
meanflow: https://arxiv.org/pdf/2505.13447

最近研究机器人库 Mink 时发现，它的差分逆运动学（Differential Inverse Kinematics）本质上是在利用二阶导数信息（Hessian/曲率）来加速求解。这让我突然联想到之前看到的 MeanFlow —— 它好像也在用二阶导来修正瞬时速度？

所以 MeanFlow 这玩意儿之所以能把几十步的生成过程压缩到一步（1-Step），是不是用的也是类似的逻辑？

看起来，它们都在做同一件事：不满足于一阶导数（切线）的局部近似，转而利用二阶信息（曲率）来更好地预测和规划轨迹，实现更高效的“一步跨越”。

所以，借助 Gemini 的帮助，有了以下这个文章。算是重新再把 MeanFlow 的原理重新梳理了一遍，借助牛顿法的类比，它的设计思路变得清晰不少。

Part 1.流形、分布与 Flow

在深入算法之前，我们需要先统一一下“世界观”。

1.1 分布 (Distribution) vs. 流形 (Manifold)

在深度学习中，我们常说“学习数据分布”，但在高维空间（如 $256\times256$ 的图像空间，维度 $D \approx 200,000$）中， “分布” 这个词往往具有误导性。

直觉误区：以为数据像烟雾一样弥漫在整个 20 万维空间里，只是有的地方浓，有的地方淡。
几何事实：真实数据（有意义的图像）极其稀疏，它们实际上是镶嵌在高维环境空间（Ambient Space）中的一张低维的、卷曲的“纸” 。这张纸就是 流形 (Manifold) 。
生成模型的任务：不仅要找到这张纸（Manifold），还要建立从噪声空间（比如高斯球）到这张纸的映射路径。

1.2 向量 (Vector) vs. 流 (Flow)

如何建立这个路径？我们需要Flow。

向量场 (Vector Field, $v$ ) ：这是微观的指令。它定义在切空间（Tangent Space）上。它告诉你在此时、此地，应该往哪个方向走一步（切线方向）。
$$ \frac{dx}{dt} = v(x, t) $$
流 (Flow, $\phi$ ) ：这是宏观的结果。它是向量场的时间积分。它描述了一个点随时间漂流的完整轨迹 (Trajectory) 。
$$ x_1 = x_0 + \int_0^1 v(x_\tau, \tau) d\tau $$

Flow Matching (FM) 的本质，就是训练一个神经网络去拟合一个瞬时速度场 $v_\theta(x, t)$。在推理时，我们沿着这个场进行积分（相当于在流形表面“滑行”），从噪声 $x_0$ 滑到数据 $x_1$。

Part 2. 为什么现在的 Flow Matching 做不到“一步到位”？

理想情况下，我们希望 $x_1 = x_0 + 1 \cdot v(x_0, 0)$，即一步生成。但标准 FM 做不到。

2.1 几何困境：切线 $\neq$ 割线

Flow Matching 学习的是 瞬时速度 (Instantaneous Velocity) ，几何上对应轨迹的 切线 (Tangent) 。

训练时的悖论：虽然我们在训练时构造的 Conditional Flow 是直线的（$x_1 - x_0$），但由于不同数据的路径在空间中会发生交叉 (Crossing) ，模型学到的 Marginal Flow（平均场）通常是弯曲的。
推理时的灾难：如果你在 $t=0$ 时刻，沿着切线方向迈一大步（Step=1），由于轨迹是弯的，你会直接飞出流形，得到一张充满噪声的废图。切线方向并不指向终点。

2.2 为什么不直接回归终点？ (Regression Fail)

你可能会问：“为什么不直接训练网络输入 $x_0$，输出 $x_1$？即 $Loss = ||Net(x_0) - x_1||^2$？”

这在数学上等价于求条件期望 $\mathbb{E}[x_1|x_0]$。

对于一个特定的噪声 $x_0$，可能对应无数张真实的图（既可能是猫，也可能是狗）。
直接回归会导致模型输出这些可能性的均值。
结果：你得到是一张“猫狗叠加”的模糊图像。

所以，我们必须学习速度场 (Vector Field) ，因为它包含了局部的物理规则，能引导我们一步步解开这个纠缠，而不是粗暴地求平均。

Part 3. 核心洞察：从“梯度下降”到“牛顿法”

MeanFlow 的核心思想，可以用优化理论中的 牛顿法 (Newton’s Method) 来类比。

3.1 一阶 vs. 二阶

想象我们在登山（寻找极值）：

梯度下降 (Gradient Descent) $\approx$ Flow Matching：
- 利用 一阶导数（梯度/速度） 。
- 只看脚下的切线方向。
- 局限：不知道前面地形是否弯曲，步长一旦大了（Step=1），就会震荡或飞出。
牛顿法 (Newton’s Method) $\approx$ MeanFlow：
- 利用 二阶导数（Hessian/曲率） 。
- 它计算了“梯度的变化率”。
- 牛顿法的局限（估计） ：牛顿法假设地形是完美的抛物面（二次近似）。但在复杂的非凸地形中，这只是一个局部估计，往往不准，所以牛顿法通常也需要迭代多次。

3.2 MeanFlow 的直觉

MeanFlow 虽然也引入了二阶信息，但它不是在做牛顿法那样的“局部近似”。

目标：预测 平均速度 (Average Velocity,) ，即连接起点和终点的 割线 (Secant) 。
策略：MeanFlow 并不试图用局部曲率去推导远处的终点（那是算不准的）。它是利用微积分推导出一个严格成立的物理恒等式，并训练神经网络去记住那个满足恒等式的解。

$$ \text{割线 (Target)} = \text{切线 (Current)} + \text{由弯曲导致的修正 (Correction)} $$

这个“修正项”，必然包含对弯曲程度（曲率） 的描述。在微积分里，描述“速度场怎么变”的量，就是速度的导数（加速度）。

Part 4. MeanFlow 的数学原理：把切线“掰”成割线

MeanFlow 的论文推导非常精彩，它利用全微分公式，建立了一个联系“瞬时速度 $v$”和“平均速度 $u$”的恒等式。

4.1 定义平均速度

定义 $u(z_t, r, t)$ 为从时刻 $r$ 到 $t$ 的位移与时间的比值（即割线）：

$$ (t-r) \cdot u(z_t, r, t) = \int_r^t v(\tau) d\tau $$

4.2 核心恒等式推导

对上述方程关于 $t$ 求全导数 $\frac{d}{dt}$。
根据微积分基本定理（右边求导是 $v$）和乘积法则（左边求导）：

$$ u + (t-r) \frac{d}{dt} u = v(z_t, t) $$

移项后，我们得到了 MeanFlow 的灵魂公式 (Eq. 6) ：

$$ \underbrace{u}_{\text{平均速度 (割线)}} = \underbrace{v}_{\text{瞬时速度 (切线)}} - \underbrace{(t-r) \frac{d}{dt} u}_{\text{二阶修正项}} $$

4.3 深入解读“修正项”

这个 $\frac{d}{dt}u$ 到底是什么？它是一个 全导数 (Total Derivative) 。展开它，我们能看到牛顿法的影子：

$$ \frac{d}{dt} u(z_t, t) = \underbrace{\frac{\partial u}{\partial t}}_{\text{时间修正}} + \underbrace{\nabla_z u \cdot \frac{dz_t}{dt}}_{\text{空间修正 (JVP)}}= \frac{\partial u}{\partial t} + (\nabla_z u \cdot v) $$

这里包含了两重物理含义，缺一不可：

空间修正 (Spatial Correction, $\nabla_z u \cdot v$)：
- 这是Jacobian-Vector Product (JVP) 。
- 类比：它在数学形式上对应了牛顿法中的 Hessian 项（空间曲率）。
- 关键区别：
  - 牛顿法利用这一项来外推/估计终点（基于二次假设，存在截断误差）。
  - MeanFlow 利用这一项来构建约束。神经网络 $u_\theta$ 在训练中已经“看过”了全局地图。这里使用 JVP，是强迫网络输出的 $u$ 必须符合物理上的微分关系。网络不是在计算局部曲率，而是在调用全局记忆来满足这个局部方程。
时间修正 (Temporal Correction, $\partial_t u$)：
- 这是流体力学中的非定常项。
- 作用：它探测了环境的变化。Flow Matching 的场是随时间 $t$ 变化的（从噪声变到数据），这一项修正了场本身演化带来的偏差。

4.4 为什么能训练？

MeanFlow 的训练过程，实际上是在解一个泛函方程，并没有显式地去算昂贵的 Hessian 矩阵。
它通过构建一个 自洽 (Self-Consistent) 的损失函数：

$$ \mathcal{L}(\theta) = || u_\theta - \text{stopgrad}\left( v - (t-r)\frac{d u_\theta}{dt} \right) ||^2 $$

模型 $u_\theta$ 被迫去满足这个微分方程。一旦 Loss 收敛，模型输出的 $u$ 就自动包含了对未来弯曲的预判，成为了真正的“割线”。

Part 5. 代码实现：从数学公式到 JAX 自动微分

明白了数学原理后，我们来看 MeanFlow 是如何在代码中落地的。你会发现，得益于现代深度学习框架（如 JAX）的自动微分功能，那些看似复杂的“导数的导数”实现起来非常优雅。

代码核心参考自 meanflow.py 文件。

5.1 网络输入：不仅看时间，还要看“跨度”

在标准的 Flow Matching 中，网络通常输入 $(z_t, t)$。但在 MeanFlow 中，我们需要预测从时刻 $t$ 到 $r$ 的平均速度 $u$。因此，网络的输入发生了一点小变化。

代码对应 (meanflow.py -> u_fn):

1
2
3
4
5
6
7
def u_fn(self, x, t, h, y, train=True):
    # x: 当前带噪图片 z_t
    # t: 当前时刻
    # h: 时间跨度 (t - r)，即我们打算“跳”多远
    # y: 类别标签
    bz = x.shape[0]
    return self.net(x, t.reshape(bz), h.reshape(bz), y, ...)

解读：
网络 $u_\theta$ 显式地将 h = t - r 作为输入。这相当于告诉神经网络：“不仅仅要看我们在哪（$t$），还要看我们这一步打算跨多远（$h$）”。如果 $h \to 0$，平均速度就退化为瞬时速度；如果 $h$ 很大，网络就需要预测“割线”。

5.2 训练核心：构造 Target 与 JVP

训练的每一步（Forward Pass）都在解我们之前推导的那个微分方程。

Step 1: 构造直线的“瞬时速度” $v$ (The Pilot)

首先，我们需要一个“向导”。虽然我们知道直线走不到终点，但它提供了基本的方向信息。我们使用标准的 Flow Matching 构造瞬时速度 $v$。

代码对应 (forward 函数)：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
# 1. 随机采样两个时间点 t 和 r (例如 t=0.8, r=0.2)
t, r = self.sample_tr(bz)

# 2. 构造线性插值的噪声图 z_t
# x 是原图(Data), e 是噪声(Noise)
# 在 t=0 是数据，t=1 是噪声。公式: z_t = (1-t)x + t*e
z_t = (1 - t) * x + t * e

# 3. 计算瞬时速度 v (Flow Matching Target)
# z_t 对 t 求导就是 e - x
v = e - x 

# (可选) 如果有 CFG (Classifier-Free Guidance)，对 v 进行加强
v_g = self.guidance_fn(v, z_t, t, labels, ...)

Step 2: 魔法时刻 —— 计算二阶修正项 (JVP)

这是 MeanFlow 最精彩的一笔。我们需要计算全导数 $\frac{du}{dt}$。
数学公式是：

$$ \frac{du}{dt} = \nabla_z u \cdot \frac{dz}{dt} + \frac{\partial u}{\partial t} \cdot \frac{dt}{dt} + \frac{\partial u}{\partial r} \cdot \frac{dr}{dt} $$

代入已知量：$\frac{dz}{dt} = v$ (当前速度), $\frac{dt}{dt}=1$, $\frac{dr}{dt}=0$ (训练时 $r$ 是独立的采样点)。

在 JAX 中，我们不需要手动写 Hessian 矩阵，直接使用 jax.jvp (Jacobian-Vector Product) 即可一次性算出函数值和切线方向的导数。

代码对应：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
# 定义一个闭包函数，输入变量是 (z_t, t, r)
def u_fn_wrapper(z_t, t, r):
    # 这里的 t-r 就是传入网络的 h
    return self.u_fn(z_t, t, t - r, y=y_inp, train=train)

# 准备“切线向量” (Tangents)
# z_t 的变化率是 v_g (当前速度)
# t 的变化率是 1
# r 的变化率是 0
tangents = (v_g, jnp.ones_like(t), jnp.zeros_like(t))

# 一行代码计算 u 和 du/dt
# primals: (z_t, t, r) 是当前值
# tangents: 变化率
u, du_dt = jax.jvp(u_fn_wrapper, (z_t, t, r), tangents)

Step 3: 构造损失函数 (MeanFlow Identity)

现在我们有了 $v$ (切线) 和 $du/dt$ (曲率/变化率)，就可以构造那个恒等式了：

$$ u_{\text{target}} = v - (t-r) \frac{du}{dt} $$

代码对应：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
# MeanFlow Identity: 割线 = 切线 - 跨度 * 变化率
u_tgt = v_g - (t - r) * du_dt

# 关键：Stop Gradient
# 我们把 u_tgt 看作物理法则计算出的“标准答案”，不需要对它的生成过程求导
u_tgt = jax.lax.stop_gradient(u_tgt)

# 计算 MSE Loss
loss = (u - u_tgt) ** 2
loss = jnp.mean(loss)

工程细节：代码中还使用了 stop_gradient。这意味着优化器只会更新网络 $u_\theta$ 让它去接近 u_tgt，而不会去“篡改”物理法则算出来的 u_tgt 应该是多少。这保证了训练的稳定性。

5.3 推理：极速一步生成 (1-NFE)

训练完成后，我们的网络 $u_\theta$ 已经学会了预测“割线”。推理过程变得异常简单，不需要解微分方程，只需要走一步几何向量加法。

代码对应 (sample_one_step 函数)：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
def sample_one_step(self, z_t, labels, i, t_steps):
    # t_steps 通常是 [1.0, 0.0] (从纯噪声到纯数据)
    t = t_steps[i]      # 当前: 1.0
    r = t_steps[i + 1]  # 目标: 0.0
    
    # 1. 预测平均速度 u
    # 网络知道我们要跨越 h = 1.0 - 0.0 = 1.0 的巨大步伐
    u = self.u_fn(z_t, t=t, h=(t - r), y=labels, train=False)
    
    # 2. 简单的欧拉积分步 (Euler Step)
    # z_next = z_curr - dt * velocity
    # 注意方向：如果是从噪声(1)去数据(0)，dt 是负的，或者公式里调整符号
    # 代码中: z_next = z_t - (t - r) * u
    z_next = z_t - (t - r) * u
    
    return z_next

为什么这能工作？
普通的 Flow Matching 如果这一步跨 1.0，用的 $v$ 是切线，会飞出去。
但这里的 $u$ 是 MeanFlow 网络输出的，它内部已经包含了通过二阶导修正后的“提前量”。它指的方向不是切线，而是直达 $t=0$ 的靶心。

全文总结

MeanFlow 是一篇将物理直觉与深度学习优化完美结合的佳作。

直觉上：它指出了 Flow Matching 在大步长生成时的几何缺陷——切线不等于割线。
理论上：它引入了类似牛顿法的二阶修正思想，利用速度场的全导数（JVP）来感知空间的曲率和环境的变化。
实现上：它没有显式计算昂贵的 Hessian 矩阵，而是利用自动微分高效计算 JVP，并通过构造自洽的损失函数，迫使网络直接学会预测“修正后的直线”。

‍

Part 1.流形、分布与 Flow#

1.1 分布 (Distribution) vs. 流形 (Manifold)#

1.2 向量 (Vector) vs. 流 (Flow)#

Part 2. 为什么现在的 Flow Matching 做不到“一步到位”？#

2.1 几何困境：切线 $\neq$ 割线#

2.2 为什么不直接回归终点？ (Regression Fail)#

Part 3. 核心洞察：从“梯度下降”到“牛顿法”#

3.1 一阶 vs. 二阶#

3.2 MeanFlow 的直觉#

Part 4. MeanFlow 的数学原理：把切线“掰”成割线#

4.1 定义平均速度#

4.2 核心恒等式推导#

4.3 深入解读“修正项”#

4.4 为什么能训练？#

Part 5. 代码实现：从数学公式到 JAX 自动微分#

5.1 网络输入：不仅看时间，还要看“跨度”#

5.2 训练核心：构造 Target 与 JVP#

Step 1: 构造直线的“瞬时速度” $v$ (The Pilot)#

Step 2: 魔法时刻 —— 计算二阶修正项 (JVP)#

Step 3: 构造损失函数 (MeanFlow Identity)#

5.3 推理：极速一步生成 (1-NFE)#

全文总结#