当世界有了自己的坐标系：物理学如何在机器的梦境中重生

论文信息

– 标题: PhysiFormer: Learning to Simulate Mechanics in World Space – 作者: Yiming Chen, Yushi Lan, Andrea Vedaldi – 领域: 计算机视觉 (cs.CV) – 发布时间: 2026年6月

—

🌌 引言：人类为什么能”直觉物理”？

让我们从一个看似简单的问题开始：当你把一块石头抛向空中，你的大脑会立刻”知道”它会怎么运动。你知道它会上升、减速、停顿、然后加速下落。你不需要计算任何方程，不需要知道重力加速度是9.8m/s²，你的大脑在毫秒之间就完成了一个完整的物理预测。

这种能力被称为“直觉物理（Intuitive Physics）”，它是人类认知中最基本、最神奇的能力之一。一个两岁的孩子，虽然还不懂得牛顿定律，却能预测球会滚向哪里、积木塔会往哪边倒、水流会往哪里流。这种预测不是通过理性计算完成的，而是通过大脑中一个隐含的、快速的”世界模拟器”完成的。

现在，把这个能力与今天最先进的AI视频生成模型对比。当你让Sora、Runway Gen-3或类似模型生成一个”石头被抛向空中”的视频时，它可能会生成一个看起来非常逼真的画面——但如果你仔细观察，石头下落的速度可能不遵循抛物线轨迹，或者石头撞击地面时的反弹角度违反了动量守恒。模型在”画”一个看起来像物理世界的视频，但它并不真正”理解”物理规律。

这就是当前AI世界模型的核心困境：它们擅长”看起来对”，但不擅长”真的是对的”。它们学习的是像素层面的统计规律，而不是物理层面的因果规律。当模型生成一个视频时，它不是在”模拟”物理世界，而是在”预测”下一个像素应该是什么颜色——基于它在训练数据中见过的类似场景。

而今天这篇论文，提出了一个根本不同的思路：与其在像素空间中学习统计规律，不如直接在物理空间中学习物理规律。

这个方法叫 PhysiFormer，它的核心创新可以用一句话概括：放弃像素，拥抱几何；放弃视图，拥抱世界。

—

🎨 问题的本质：为什么像素是物理的”坟墓”？

在深入PhysiFormer之前，我们需要理解当前世界模型的根本局限。

像素空间的暴政

今天几乎所有的视频生成模型（如Sora、Runway、Stable Video Diffusion）都工作在像素空间中。它们接收一个视频帧（像素网格），然后预测下一个视频帧（另一个像素网格）。

这种范式的优势是直接的：视频数据天然就是像素，模型可以直接在原始数据上学习。但问题在于：像素是物理的”坟墓”——物理世界的丰富信息，在像素化的过程中被大量丢弃和扭曲。

让我们用一个具体的例子来理解这个问题。

想象一个红色的球在白色的房间里滚动。从物理学的角度，这个场景可以用以下信息完全描述： – 球的位置（x, y, z坐标） – 球的速度（vx, vy, vz） – 球的质量（m） – 球的半径（r） – 重力加速度（g） – 地面的摩擦系数（μ） – 墙壁的位置（边界条件）

这些信息加起来可能只有几十个浮点数。但如果你用像素来表示这个场景，即使是一个低分辨率的视频（256×256像素，30帧/秒），每一帧也需要65536个像素值，每个像素值3个颜色通道（RGB），一个10秒的视频就需要约5900万个数字。

问题在于：这5900万个数字中的绝大多数，与物理规律无关。它们只是关于”这个球在这个特定角度、这个特定光照条件下的外观”。如果你改变摄像机的角度，或者改变光照的颜色，所有的像素值都会改变，但物理规律本身没有变。球还是遵循同样的运动方程，受同样的重力作用，与地面产生同样的摩擦。

这就是像素空间的根本问题：它把物理规律和视图依赖的外观混在了一起。模型被迫同时学习”球怎么运动”和”球在红色灯光下看起来是什么颜色”，这两件事在物理上是完全独立的，但在像素空间中它们被纠缠在一起。

视图依赖的诅咒

当前视频世界模型的另一个致命问题是视图依赖（View-dependence）。模型学习的是特定摄像机视角下的像素变化，而不是物体本身的物理运动。

举个例子：假设模型训练数据中有很多”球在房间里滚动”的视频，但这些视频大多是从一个固定的摄像机角度拍摄的。模型会学到球在这种特定视角下的像素变化模式。但如果测试时摄像机角度改变，或者场景中出现新的视角，模型往往会失败，因为它学到的不是”球怎么运动”，而是”在这种特定视角下，像素怎么变化”。

这就像一个学生，他记住了所有例题的解答，但从未真正理解解题的原理。当题目变了一个形式，他就无从下手。

人类不是这样。人类在理解物理时，有一个视图不变（View-invariant）的表征。无论你从哪个角度看一个滚动的球，你大脑中表征的是球的位置、速度、轨迹——这些是与视角无关的物理量。你看不到球的背面，但你的大脑会自动推断球背面的存在和运动。这种”世界空间”中的表征，是直觉物理的基础。

为什么物理模拟需要”几何”？

PhysiFormer的第三个核心洞察是：物理本质上是几何的。

牛顿的万有引力定律，本质上是在描述两个物体之间的几何关系（距离）如何影响力。刚体动力学，本质上是在描述几何形状（刚体）如何在外力作用下运动。弹性力学，本质上是在描述几何形状如何在外力作用下变形。

物理规律不关心一个物体的颜色、纹理、光照。它关心的是物体的形状、质量、位置、速度、弹性。这些全是几何量。

但像素空间中的视频生成模型，被迫学习颜色、纹理、光照的变化，因为这些都是像素值的重要组成部分。模型在训练时，它的注意力被大量”非物理”的信息分散了。它花了大量的参数和计算资源去学习”这个球在红色灯光下看起来是什么颜色”，而不是”这个球在重力作用下会如何运动”。

PhysiFormer的解决方案是：直接把物理模拟放到几何空间中，跳过像素这个中间层。

—

🏛️ PhysiFormer：在世界坐标中”做梦”

PhysiFormer的核心架构可以用一个革命性的决定来概括：用3D网格（3D Mesh）表示物体，在世界坐标系中预测运动，用扩散模型（Diffusion Model）来生成未来。

3D Mesh：从像素到几何的飞跃

PhysiFormer不像传统视频模型那样处理像素图像，而是将物体表示为3D网格（3D Mesh）。一个3D网格由两部分组成： – 顶点（Vertices）：物体表面上的离散点，每个顶点有3D坐标（x, y, z） – 面（Faces）：连接这些顶点形成的多边形（通常是三角形），定义了物体的表面

这种表示方式有几个巨大的优势：

1. 几何显式化

物体的形状被显式地表示为几何结构，而不是隐含在像素值的统计模式中的。模型可以直接操作几何量——移动顶点、变形表面、计算碰撞——而不是通过像素变换来间接推断几何变化。

2. 视图无关性

3D网格是与视图无关的。同一个3D网格，可以从任意角度渲染成2D图像。这意味着模型学到的物理规律是”世界空间”中的，而不是”像素空间”中的。无论你从哪个角度看一个物体，它的3D网格表征是一样的。

3. 物理操作的直接性

在3D网格上，物理操作变得直接而自然。要模拟一个物体的运动，你只需要更新它的顶点位置。要模拟变形，你只需要修改顶点的相对位置。要计算碰撞，你只需要检测网格之间的几何相交。这些操作在像素空间中几乎是不可能的——在像素空间中，你甚至无法直接”看到”一个物体的3D形状。

世界坐标系：物理的”通用语言”

PhysiFormer的另一个关键设计是：所有的计算都在世界坐标系（World Coordinates）中进行，而不是在摄像机坐标系或视图坐标系中。

世界坐标系是一个绝对、固定、与观察者无关的参考系。在这个坐标系中，物体的位置是绝对的，运动是客观的。无论摄像机在哪里，一个物体的世界坐标（x, y, z）是不变的。

这与像素空间形成了鲜明对比。在像素空间中，物体的位置是相对的——它取决于摄像机的位置、角度、焦距。同一个物体，摄像机靠近一点，它在像素空间中的位置就会改变；摄像机旋转一点，它的像素坐标也会改变。这种”相对性”使得物理规律在像素空间中变得极其复杂和隐晦。

打个比方：像素空间就像是你站在一个房间里，用相机拍摄物体的照片。世界坐标系就像是你有一张房间的蓝图，上面有每个物体的精确位置。在蓝图上，物体的位置是绝对的、不变的。在照片上，物体的位置取决于你站在哪里、朝哪个方向拍摄。如果你想理解物体的物理运动，蓝图比照片有用得多。

扩散模型 + 物理 = PhysiFormer

PhysiFormer使用扩散模型（Diffusion Model）来生成未来的3D运动。具体来说，它是一个扩散Transformer（Diffusion Transformer），直接在世界坐标系中预测顶点轨迹。

让我们拆解这个过程：

输入： – 初始时刻的顶点位置（3D坐标） – 初始时刻的顶点速度（3D速度向量） – 物体材料类型（刚体或弹性体）

输出： – 未来一系列时刻的顶点位置轨迹

过程： PhysiFormer不是直接预测顶点位置，而是将顶点轨迹预测作为一个去噪扩散过程。

具体来说： 1. 从一个随机的噪声轨迹开始（每个顶点在每个时刻的位置都是随机噪声） 2. 通过多步去噪，逐步将这个噪声轨迹转化为一个物理上合理的轨迹 3. 每一步去噪，模型都基于当前状态、物理规律、材料属性，推断出噪声应该被如何去除 4. 最终，噪声被完全去除，得到一个平滑、物理一致的顶点轨迹

这种扩散模型的方法有几个优势：

1. 概率性生成

扩散模型天然支持概率性生成。给定相同的初始条件，不同的去噪路径可以产生不同的未来轨迹。这在物理模拟中是极其重要的，因为物理系统本质上是混沌的——初始条件的微小扰动会导致完全不同的长期行为。扩散模型可以捕捉这种不确定性，生成多种可能的未来，而不是一个确定性的预测。

2. 无需显式物理约束

传统物理模拟方法需要显式编码物理约束（如动量守恒、能量守恒、刚性约束）。这需要复杂的数学建模和数值优化。但PhysiFormer展示了：如果你有足够的训练数据，模型可以隐式地学习这些物理约束，而不需要显式编码。

这类似于深度学习的一个核心发现：你不需要手动设计特征提取器，神经网络可以自己学习特征。同样，PhysiFormer表明，你不需要手动编码物理定律，扩散模型可以从数据中学习物理定律的统计规律。

3. 统一的刚体和弹性体处理

传统物理模拟对刚体和弹性体通常使用不同的方法（刚体用刚体动力学，弹性体用有限元分析）。但PhysiFormer用同一个模型处理两种材料。模型只需要知道”这是刚体”或”这是弹性体”，它就会生成相应的运动——刚体保持形状不变，弹性体发生变形。

—

🧩 架构深挖：时空对象的注意力分解

PhysiFormer的架构设计体现了一种深刻的物理洞察：物理运动可以在时间、空间、对象三个维度上分解。

注意力分解（Attention Factorization）

在标准的Transformer中，注意力机制允许所有token之间两两交互。但在物理模拟中，这种全连接交互是浪费的，因为物理规律天然具有局部性和分解性。

PhysiFormer提出了三种注意力分解：

1. 时间注意力（Temporal Attention）

同一个顶点在不同时间步之间的注意力。这捕捉了物理的时间演化——一个顶点在下一时刻的位置，主要依赖于它在前一时刻的位置和速度。时间注意力允许模型学习时间上的因果性和平滑性。

2. 空间注意力（Spatial Attention）

同一个物体在不同顶点之间的注意力。这捕捉了物体的几何结构——一个物体的不同顶点之间是有关联的（比如通过边连接），它们不能独立运动。空间注意力允许模型学习物体的几何约束。

3. 对象注意力（Object Attention）

不同物体之间的注意力。这捕捉了物体之间的交互——比如碰撞、接触、引力。对象注意力允许模型学习多物体之间的物理关系。

这种分解式注意力的计算效率远高于全连接注意力。更重要的是，它体现了物理的层次结构： – 在最底层，顶点的运动由时间注意力控制（时间演化） – 在中间层，顶点的运动由空间注意力约束（几何结构） – 在最高层，物体的运动由对象注意力调节（物体交互）

这种层次结构与物理本身的层次结构完美对应： – 物理定律（如牛顿方程）控制时间演化 – 几何约束（如刚性约束）控制物体形状 – 边界条件（如碰撞、接触）控制物体间交互

置换不变性：多物体推理的关键

PhysiFormer还实现了一个重要的数学性质：置换不变性（Permutation Invariance）。

当场景中有多个物体时，物体的顺序不应该影响物理模拟的结果。无论你把物体A标记为”物体1″、物体B标记为”物体2″，还是反过来，物理结果应该是相同的。PhysiFormer通过架构设计，确保了这种置换不变性，使得模型可以处理任意数量的物体，而不需要为每个物体分配特定的编码。

这在传统方法中是困难的。传统方法通常需要为每个物体显式地分配一个ID或编码，然后分别处理每个物体。但PhysiFormer通过注意力分解，自然地实现了置换不变性——物体的身份不是通过外部标签来编码的，而是通过它们在空间中的几何关系来隐式定义的。

—

🧪 实验验证：从模拟到现实，从刚体到弹性

训练数据：10万+模拟轨迹

PhysiFormer在超过10万个模拟轨迹上训练。这些轨迹涵盖了多种物理场景： – 刚体运动（碰撞、滚动、滑动） – 弹性体变形（拉伸、压缩、弯曲） – 混合材料场景（刚体和弹性体同时存在）

训练数据来自物理模拟器，这意味着每个训练样本都有”物理正确”的标注。这使得模型可以从”物理正确”的数据中学习，而不是从”看起来像”的视频中学习。

与自回归基线的对比

论文对比了PhysiFormer与传统的自回归基线（Autoregressive Baselines）。自回归模型（如很多视频预测模型）一步一步地预测未来：先预测下一帧，然后基于预测的下一帧再预测下下一帧，如此递归。

这种自回归方法有一个致命的问题：误差累积。每一步的预测都有微小误差，这些误差在递归过程中被放大，导致长期预测完全偏离物理现实。这类似于你在玩”传话游戏”——第一个人说一句话，传给第二个人，第二个人传给第三个人…到第十个人时，原始信息已经完全变形了。

PhysiFormer的扩散模型方法避免了这个问题。它不是一步一步地递归预测，而是一次性生成整个轨迹，然后通过去噪过程逐步优化。这类似于一个雕塑家：他不是一块一块地添加石头，而是先有一个整体的粗坯，然后逐步细化和打磨。这种”全局优化”的方式，避免了局部误差的累积。

实验结果验证了这一点： – 轨迹准确性：PhysiFormer的预测轨迹与真实物理轨迹的误差显著低于自回归基线 – 刚性保持：对于刚体，PhysiFormer能更好地保持物体的形状不变（即顶点之间的相对位置不变），而自回归基线会逐渐让物体变形 – 动量一致性：PhysiFormer生成的轨迹更符合动量守恒等物理规律，而自回归基线会逐渐”遗忘”这些约束

泛化能力：从未见过的世界

PhysiFormer最令人印象深刻的是它的泛化能力：

1. 未见过的几何形状

模型在训练时见过的物体都是某些特定形状（如球、立方体、圆柱体）。但测试时，给它一个完全陌生的形状（如一个复杂的动物模型），它仍然能生成物理上合理的运动。这说明模型学到的不是”特定形状的运动规律”，而是普遍的物理规律。

2. 更多的物体

训练时场景中通常只有几个物体。但测试时，给模型一个包含更多物体的场景，它仍然能处理。这说明置换不变性的设计确实有效——模型不受物体数量的限制。

3. 真实世界数据

论文还展示了PhysiFormer在真实世界数据上的表现。虽然模型完全是在模拟数据上训练的，但当给定真实世界的初始状态时（比如从视频中重建的3D网格），它仍然能生成合理的未来运动。这证明了模型学到的物理规律具有一定的跨域迁移能力——从模拟到真实。

—

🌠 为什么这项工作改变了游戏规则？

从”看起来像”到”真的是”

当前的视频生成模型（如Sora）在生成视觉上令人印象深刻的视频方面取得了巨大进步。但如果我们仔细观察，这些视频中的物理往往是不正确的。物体可能穿过墙壁，球可能违反重力向上飞，弹性碰撞可能不遵守能量守恒。这些模型在”看起来像物理世界”方面做得很好，但在”真的是物理世界”方面做得很差。

PhysiFormer代表了一个根本不同的方向：它不关心”看起来像”，它只关心”真的是”。它直接在世界坐标系中模拟物理，生成的是物理上正确的运动，而不是视觉上好看的视频。如果要从PhysiFormer的输出生成视频，你需要一个额外的渲染步骤——将3D网格渲染成2D图像。但这个渲染步骤是可选的、可替换的。你可以用不同的渲染器、不同的光照、不同的材质，而物理运动本身是不变的。

这种分离（物理 vs. 渲染）是物理学和计算机图形学中的一个经典原则。PhysiFormer重新引入了这种分离到AI世界模型中，这是一个重要的范式转换。

世界模型的”物理基础”

Yann LeCun近年来一直在倡导”世界模型（World Models）”的愿景：AI系统应该拥有一个内部的”世界模拟器”，能够预测行动的后果。但LeCun的愿景主要关注的是语义层面的预测（”如果我推这个杯子，它会倒”），而不是物理层面的精确模拟（”如果我推这个杯子，它会在0.3秒后倒下，倒下的角度是45度，然后滚0.5米”）。

PhysiFormer为LeCun的愿景提供了物理基础。它展示了如何构建一个能够进行精确物理预测的世界模型。这种精确的物理预测能力，对于机器人操作（如抓取、装配）、自动驾驶（如碰撞预测）、物理设计（如结构优化）等领域，是至关重要的。

坐标系空间的重要性

PhysiFormer的一个深层启示是：坐标系的选择，对于学习物理至关重要。

机器学习领域有一句格言：”特征工程决定了机器学习的上限，模型只是逼近这个上限。”在物理模拟中，这句话可以改为：”坐标系的选择决定了物理学习的天花板，模型只是在这个坐标系中逼近物理规律。”

像素坐标系是一个糟糕的物理坐标系，因为它把物理规律、视图依赖、外观属性全部混在了一起。世界坐标系是一个更好的物理坐标系，因为它分离了物理（世界坐标）和外观（视图坐标）。

PhysiFormer的成功，可能会启发未来更多的AI研究重新思考”表征空间”的问题。也许不仅仅是物理模拟，对于其他领域（如因果推理、逻辑推理、知识表示），也存在类似的”坐标系选择”问题——选择一个合适的表征空间，可能比设计更复杂的模型更重要。

—

🔮 未来展望：当AI真正”理解”物理

场景一：机器人操作中的物理直觉

想象一个机器人需要组装一个复杂的家具。它需要理解哪些部件是刚性的（如木板），哪些部件是弹性的（如橡胶垫），哪些连接是固定的（如螺丝），哪些连接是活动的（如铰链）。传统的机器人方法需要手动编码所有这些物理属性。但有了PhysiFormer，机器人可以从观察中自动推断物理属性，然后生成物理上合理的操作策略。

更重要的是，机器人可以利用PhysiFormer进行预测性模拟。在真正执行一个动作之前，它可以在内部模拟这个动作的后果：”如果我这样推，这个物体会怎么运动？如果它会倒，我应该怎么调整力度和方向？”这种”先模拟、后执行”的能力，将大大提高机器人的操作成功率和安全性。

场景二：物理设计中的AI辅助

工程师在设计产品时，通常需要进行大量的物理模拟（如有限元分析）。这些模拟计算成本高昂，通常需要数小时甚至数天。PhysiFormer可以被训练成一个快速的、近似的物理模拟器，在毫秒级的时间内给出物理预测。工程师可以在设计迭代过程中，使用PhysiFormer进行快速的”草稿级”模拟，只在最终验证阶段使用精确但缓慢的传统模拟器。

这将极大地加速物理设计的过程，无论是建筑设计、汽车设计、还是消费品设计。

场景三：教育中的可视化物理

物理学习最大的困难之一是抽象性。学生很难理解微分方程描述的物理规律。但PhysiFormer可以将这些抽象方程转化为直观的3D动画。学生可以调整初始条件（如改变重力、改变质量），然后立即看到物理结果。这种”可交互的物理”将让物理学习变得更加直观和有趣。

场景四：影视和游戏产业

在影视和游戏产业中，物理模拟（如布料模拟、流体模拟、刚体碰撞）是计算成本最高的环节之一。传统的物理引擎（如PhysX、Havok）需要大量的手工参数调整。PhysiFormer提供了一种数据驱动的物理模拟方法，可以从真实的物理数据中学习，自动推断物理参数。这将降低物理模拟的门槛，同时提高物理真实感。

—

📜 结论：让世界回到世界

PhysiFormer的核心贡献，可以用一个诗意的表达来概括：让世界回到世界。

当前的视频生成模型把世界囚禁在像素中。像素是一个美丽的牢房——它让机器可以生成令人惊叹的视觉效果。但它也是一个残酷的牢房——它让机器无法真正理解物理规律。物理规律在像素空间中是被扭曲的、隐晦的、不可达的。

PhysiFormer打破了这座牢房。它将世界从像素中解放出来，让它回到自己的坐标系——世界坐标系。在这个坐标系中，物理规律是清晰的、显式的、直接的。物体的位置是绝对的，运动是客观的，变形是真实的。

这种转变不仅仅是技术上的改进，它是一种哲学上的回归。它提醒我们：物理学的本质不是像素，而是几何；不是视图，而是世界；不是外观，而是规律。

当AI真正学会在世界坐标系中”做梦”，它梦见的不只是美丽的画面，而是物理的真相。它梦见的，是人类在直觉中早已掌握的那个世界——球会滚，桥会晃，弹簧会弹，水会流。这个梦中的世界，不需要摄像机，不需要光照，不需要颜色。它只需要三个维度，和一个时钟。

PhysiFormer让我们看到了这个梦的可能性。当世界有了自己的坐标系，物理学就在机器的梦境中，重生了。

—

📚 参考文献与延伸阅读

核心论文: – Chen, Y., Lan, Y., & Vedaldi, A. (2026). PhysiFormer: Learning to Simulate Mechanics in World Space. arXiv preprint. https://yimingc9.github.io/physiformer

相关工作: – Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. NeurIPS 2020. – Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. ICCV 2023. – Battaglia, P.W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint. – LeCun, Y. (2022). A path towards autonomous machine intelligence. Open Review.

—

#论文推荐 #arXiv #物理模拟 #世界模型 #3D几何 #扩散模型 #小凯