将哈密顿力学泛化到神经算子，何恺明团队又发新作，实现更高级物理推理|物理|哈密顿_新浪科技

机器之心报道

编辑：杜伟、蛋酱

继上月末连发两篇论文之后，大神何恺明又出新作了！这次的主题是「用于物理推理的去噪哈密顿网络」。

物理推理包含推断、预测和解释动态系统行为的能力，这些是科学研究的基础。应对此类挑战的机器学习框架通常被期望超越仅仅记忆数据分布的做法，从而维护物理定律，解释能量和力的关系，并纳入超越纯数据驱动模型的结构化归纳偏差。科学的机器学习通过将物理约束直接嵌入神经网络架构（通常通过显式构建物理算子）来解决这一挑战。

不过，这些方法面临两个关键限制。其一，这些方法主要学习局部时序更新（预测从一个时间步骤到下一个时间步骤的状态转换），而不捕获远程依赖或抽象的系统级交互。其二，这些方法主要关注前向模拟，从初始条件预测系统的演变，而在很大程度上忽略了超分辨率、轨迹修复或从稀疏观测中进行参数估计等互补任务。

为了解决这些限制，何恺明等来自 MIT、斯坦福大学等机构的研究者提出了去噪哈密顿网络（Denoising Hamiltonian Network，DHN），这是一个将哈密顿力学泛化到神经算子的框架。

论文标题：Denoising Hamiltonian Network for Physical Reasoning
论文地址：https://arxiv.org/pdf/2503.07596

下图 1 为去噪哈密顿网络（DHN）概览。

研究者表示，DHN 在利用神经网络灵活性的同时实施物理约束，带来以下三项关键创新。

首先，DHN 通过将系统状态组合视为 token 来扩展哈密顿神经算子以捕获非局部时间关系，从而能够从整体上对系统动态进行推理，而不是分步推理。

其次，DHN 集成了一个去噪目标，其灵感来自去噪扩散模型，用于减轻数值积分误差。通过迭代地将其预测细化为物理上有效的轨迹，DHN 提高了长期预测的稳定性，同时保持了在不同噪声条件下的适应性。此外，通过利用不同的噪声模式，DHN 支持在各种任务场景中进行灵活的训练和推理。

最后，研究者引入了全局条件以促进多系统建模。一个共享的全局潜在代码被用来对系统特定属性（例如质量、摆长）进行编码，使 DHN 能够在统一框架下对异构物理系统进行建模，同时保持底层动态的解耦表示。

在实验部分，为了评估 DHN 的通用性，研究者通过三个不同的推理任务对其进行了测试，包括轨迹预测和完成、从部分观察中推断物理参数，以及通过渐进式超分辨率插入稀疏轨迹。

总之，这项工作推动了在局部时序关系之外嵌入物理约束的更通用架构的发展，为更广泛的物理推理应用开辟了道路，超越了传统的前向模拟和下一状态预测。

论文一作 Congyue Deng 发推表示，过去通过扩展卷积算子使其从低级图像处理上升到高级视觉推理，如今 DHN 可以通过扩展物理算子来实现更高级的物理推理。

同时，她也提出了三个开放性问题，包括「如何定义深度学习中的物理推理」、「什么是物理模拟」、「神经网络应该具备哪些物理属性」。她说到，DHN 不是最终的解决方案，只是一个开始。

方法概览

本文的目标是设计更通用的神经算子，既遵循物理约束，又释放神经网络作为可优化黑盒函数的灵活性和表现力。研究者首先问了一个问题：除了下一状态预测之外，我们还能建模哪些「物理关系」？

下图 2 比较了三种不使用机器学习来建模物理系统的经典方法，包括如下：

全局解析解决方案。对于具有规则结构的简单系统，人们通常直接得出闭式解。
PDE + 数值积分，在更复杂的环境中，如果没有闭式解，标准做法是将系统的动态过程表示为 PDE，然后通过数值方法逐步求解。
直接全局关系。在某些复杂系统中（例如没有耗散力的纯保守系统），时间上相距较远的状态可以直接使用全局守恒定律（例如能量守恒定律）来关联。

图 3 展示了一个离散的哈密顿网络（右），用于计算时间步长 t_0 和 t_1 之间的状态关系。研究者主要使用哈密顿 H^+（右）来描述他们的网络设计。

去噪哈密顿网络

掩码建模和去噪。研究者希望哈密顿块不仅能对跨时间步的状态关系进行建模，还能学习每个时间步的状态优化，以便进行推理。为此，他们采用了掩码建模策略，在训练网络时屏蔽掉部分输入状态（图 5）。

这里不是简单地屏蔽输入状态，而是用不同幅度的噪声采样对输入状态进行扰动（图 5）。这种策略可确保模型学会迭代改进预测，使其能够从损坏或不完整的观测结果中恢复有物理意义的状态。

具体来说，研究者定义了一个噪声水平递增的序列

以阻塞输入状态为例，研究者随机采样高斯噪声

和每个状态的噪声规模

在实验中，去噪步数设置为 10。在推理时，研究者用一连串同步于所有未知状态的递减噪声尺度对未知状态进行逐步去噪。他们同时应用

和

来迭代更新和

不同的掩码模式通过在训练过程中设计不同的掩码模式，可以根据不同的任务制定灵活的推理策略。图 6 展示了三种不同的掩码模式：通过屏蔽一个数据块的最后几个状态来实现自回归，这类似于利用前向建模进行下一状态预测的物理模拟；通过掩码一个数据块中间的状态来实现超分辨率，这可应用于数据插值；更广泛地说，包括随机掩码在内的任意顺序掩码，掩码模式根据任务要求进行自适应设计。

网络架构

纯解码器 Transformer。对于每个哈密顿块，网络输入是不同时间步的栈、栈，研究者还引入了整个轨迹的全局潜码 z 作为条件。如图 7 所示，研究者采用了一种纯解码器 Transformer，它类似于类似于 GPT 的纯解码器架构，但没有因果注意力掩码。

研究者将所有输入 token

作为长度为 2b + 1 的序列应用了自注意力。全局潜码 z 作为查询 token，用于输出哈密顿值 H。还通过在位置嵌入中添加每个状态的噪声标度，将其编码到网络中。在实验中，研究者实现了一个适合单 GPU 的简单双层 Transformer。

自解码。研究者没有依赖编码器网络从轨迹数据中推断全局潜码，而是采用了自解码器框架，为每条轨迹维护一个可学习的潜码 z（图 8）。这种方法允许模型高效地存储和完善特定系统的嵌入，而不需要单独的编码过程。在训练过程中，研究者会联合优化网络权重和代码库。训练结束后，给定一个新轨迹，冻结网络权重，只优化新轨迹的潜码。

实验

研究者用两种设置来评估模型：单摆和双摆。两种设置都包含一个模拟轨迹数据集。单摆是一个周期性系统，每个状态下的总能量都可以通过（q, p）直接计算出来，因此此处用它来评估模型的能量守恒能力。双摆是一个混沌系统，微小的扰动会导致未来状态的偏离。

他们用与图 6 中三种不同掩码模式相对应的三种不同任务来测试模型。它们分别是：(i) 用于前向模拟的下一状态预测（自回归）；(ii) 用于物理参数推断的随机掩蔽表示学习；以及 (iii) 用于轨迹插值的渐进式超分辨率。这些任务突出了 DHN 对各种物理推理挑战的适应性，测试了它在不同观测限制条件下生成、推断和插值系统动态的能力。

前向模拟

拟合已知轨迹

图 9 显示了采用不同块大小的模型与采用不同数值积分器的 HNN 的比较结果。左图和右图分别是单摆和双摆系统在每个时间步的 q 预测值的均方误差（MSE）。中间的图显示了一个示例轨迹上的平均总能量误差和总能量的演变。对于 DHN，每个时间步的状态优化由去噪机制建模，无需变分积分器。当块大小为 2 时，本文的模型可以稳定地保存总能量。增加块大小会在较长的时间范围内引起能量波动，但这种波动并没有表现出明显的能量漂移倾向。

以新颖的轨迹完成

图 10 显示了与 HNN（上行）和各种无物理约束基线模型（下行）的比较结果。本文的 DHN 采用较小的块大小，状态预测更准确，节能效果更好。

表征学习

图 11 展示了与 HNN 和常规网络相比，DHN 在不同块大小（s = b/2）下的线性探测结果。与基线网络相比，本文的模型实现了更低的 MSE。如图 4 所示，HNN 可以看作是哈密顿块的特例，其核大小和步长均为 1，具有最强的局部性。研究者引入的块大小和跨度允许模型在不同尺度上观察系统。在这个双摆系统中，块大小为 4 是推断其参数的最佳时间尺度。

图 12 展示了不同块大小和步长的 DHN 结果。如图 12b 所示，哈密顿块的输入和输出状态有一个 b-s 时间步长的重叠区域。哈密顿块的广义能量守恒依赖于重叠区域具有相同的输入和输出。在训练过程中，这一约束作为状态预测损失的一部分强加给网络。较大的重叠会对网络施加更强的正则化，但会鼓励网络执行更多的自一致性约束，而不是更多的状态间关系。相反，减少重叠度的同时增加跨度，可以鼓励模型吸收更多时间上较远的状态信息，但代价是削弱自洽性约束，从而影响稳定性。在重叠等于块大小 b 且跨度为零的极端情况下，DHN 块的输入和输出完全相同，训练损失退化为自相干约束。HNN 是另一种重叠为零的特殊情况（因为块大小为 1，重叠只能为零）。如 12b 所示，对于简单双层 transformer，最佳的块大小和跨度约为 s≈ b/2，重叠量适中。

轨迹插值

研究者通过重复应用 2 倍超分辨率来实现 4 倍超分辨率。如图 13 左所示，为每个阶段构建一个 b = 2、s = 1 的 DHN 块。不同稀疏度的轨迹块如图 13 右所示。掩码应用于中间状态，边上的两个状态是已知的。

在所有三个超分辨率阶段中，每个轨迹都与共享的全局潜码相关联，从而为训练集形成一个结构化代码集。在训练过程中，网络权重和这些潜码会在逐步细化阶段（0、1、2）中共同优化。在推理时，给定一个仅在最稀疏水平（第 0 阶段）已知状态的新轨迹，研究者冻结了 DHN 块中的所有网络权重，并优化第 0 阶段的全局潜码。

最后，研究者将本文模型与用于超分辨率的 CNN 进行了比较，结果如图 14 所示。对于与训练数据具有相同初始状态的轨迹，两个模型都显示出较好的插值结果，MSE 也较低。基线 CNN 的结果稍好，因为它本身没有正则化，很容易过拟合训练轨迹。对于具有未知初始状态的测试轨迹，CNN 难以实现泛化，因为其插值在很大程度上依赖于训练分布。相比之下，DHN 具有很强的泛化能力，因为其物理约束表征使其即使在分布变化的情况下也能推断出可信的中间状态。