当世界有了自己的坐标系:物理学如何在机器的梦境中重生

## 论文信息 - **标题**: PhysiFormer: Learning to Simulate Mec...

论文信息

标题: PhysiFormer: Learning to Simulate Mechanics in World Space – 作者: Yiming Chen, Yushi Lan, Andrea Vedaldi – 领域: 计算机视觉 (cs.CV) – 发布时间: 2026年6月

🌌 引言:人类为什么能”直觉物理”?

让我们从一个看似简单的问题开始:当你把一块石头抛向空中,你的大脑会立刻”知道”它会怎么运动。你知道它会上升、减速、停顿、然后加速下落。你不需要计算任何方程,不需要知道重力加速度是9.8m/s²,你的大脑在毫秒之间就完成了一个完整的物理预测。

这种能力被称为“直觉物理(Intuitive Physics)”,它是人类认知中最基本、最神奇的能力之一。一个两岁的孩子,虽然还不懂得牛顿定律,却能预测球会滚向哪里、积木塔会往哪边倒、水流会往哪里流。这种预测不是通过理性计算完成的,而是通过大脑中一个隐含的、快速的”世界模拟器”完成的。

现在,把这个能力与今天最先进的AI视频生成模型对比。当你让Sora、Runway Gen-3或类似模型生成一个”石头被抛向空中”的视频时,它可能会生成一个看起来非常逼真的画面——但如果你仔细观察,石头下落的速度可能不遵循抛物线轨迹,或者石头撞击地面时的反弹角度违反了动量守恒。模型在”画”一个看起来像物理世界的视频,但它并不真正”理解”物理规律。

这就是当前AI世界模型的核心困境:它们擅长”看起来对”,但不擅长”真的是对的”。它们学习的是像素层面的统计规律,而不是物理层面的因果规律。当模型生成一个视频时,它不是在”模拟”物理世界,而是在”预测”下一个像素应该是什么颜色——基于它在训练数据中见过的类似场景。

而今天这篇论文,提出了一个根本不同的思路:与其在像素空间中学习统计规律,不如直接在物理空间中学习物理规律。

这个方法叫 PhysiFormer,它的核心创新可以用一句话概括:放弃像素,拥抱几何;放弃视图,拥抱世界。

🎨 问题的本质:为什么像素是物理的”坟墓”?

在深入PhysiFormer之前,我们需要理解当前世界模型的根本局限。

像素空间的暴政

今天几乎所有的视频生成模型(如Sora、Runway、Stable Video Diffusion)都工作在像素空间中。它们接收一个视频帧(像素网格),然后预测下一个视频帧(另一个像素网格)。

这种范式的优势是直接的:视频数据天然就是像素,模型可以直接在原始数据上学习。但问题在于:像素是物理的”坟墓”——物理世界的丰富信息,在像素化的过程中被大量丢弃和扭曲。

让我们用一个具体的例子来理解这个问题。

想象一个红色的球在白色的房间里滚动。从物理学的角度,这个场景可以用以下信息完全描述: – 球的位置(x, y, z坐标) – 球的速度(vx, vy, vz) – 球的质量(m) – 球的半径(r) – 重力加速度(g) – 地面的摩擦系数(μ) – 墙壁的位置(边界条件)

这些信息加起来可能只有几十个浮点数。但如果你用像素来表示这个场景,即使是一个低分辨率的视频(256×256像素,30帧/秒),每一帧也需要65536个像素值,每个像素值3个颜色通道(RGB),一个10秒的视频就需要约5900万个数字

问题在于:这5900万个数字中的绝大多数,与物理规律无关。它们只是关于”这个球在这个特定角度、这个特定光照条件下的外观”。如果你改变摄像机的角度,或者改变光照的颜色,所有的像素值都会改变,但物理规律本身没有变。球还是遵循同样的运动方程,受同样的重力作用,与地面产生同样的摩擦。

这就是像素空间的根本问题:它把物理规律和视图依赖的外观混在了一起。模型被迫同时学习”球怎么运动”和”球在红色灯光下看起来是什么颜色”,这两件事在物理上是完全独立的,但在像素空间中它们被纠缠在一起。

视图依赖的诅咒

当前视频世界模型的另一个致命问题是视图依赖(View-dependence)。模型学习的是特定摄像机视角下的像素变化,而不是物体本身的物理运动。

举个例子:假设模型训练数据中有很多”球在房间里滚动”的视频,但这些视频大多是从一个固定的摄像机角度拍摄的。模型会学到球在这种特定视角下的像素变化模式。但如果测试时摄像机角度改变,或者场景中出现新的视角,模型往往会失败,因为它学到的不是”球怎么运动”,而是”在这种特定视角下,像素怎么变化”。

这就像一个学生,他记住了所有例题的解答,但从未真正理解解题的原理。当题目变了一个形式,他就无从下手。

人类不是这样。人类在理解物理时,有一个视图不变(View-invariant)的表征。无论你从哪个角度看一个滚动的球,你大脑中表征的是球的位置、速度、轨迹——这些是与视角无关的物理量。你看不到球的背面,但你的大脑会自动推断球背面的存在和运动。这种”世界空间”中的表征,是直觉物理的基础。

为什么物理模拟需要”几何”?

PhysiFormer的第三个核心洞察是:物理本质上是几何的。

牛顿的万有引力定律,本质上是在描述两个物体之间的几何关系(距离)如何影响力。刚体动力学,本质上是在描述几何形状(刚体)如何在外力作用下运动。弹性力学,本质上是在描述几何形状如何在外力作用下变形。

物理规律不关心一个物体的颜色、纹理、光照。它关心的是物体的形状、质量、位置、速度、弹性。这些全是几何量。

但像素空间中的视频生成模型,被迫学习颜色、纹理、光照的变化,因为这些都是像素值的重要组成部分。模型在训练时,它的注意力被大量”非物理”的信息分散了。它花了大量的参数和计算资源去学习”这个球在红色灯光下看起来是什么颜色”,而不是”这个球在重力作用下会如何运动”。

PhysiFormer的解决方案是:直接把物理模拟放到几何空间中,跳过像素这个中间层。

🏛️ PhysiFormer:在世界坐标中”做梦”

PhysiFormer的核心架构可以用一个革命性的决定来概括:用3D网格(3D Mesh)表示物体,在世界坐标系中预测运动,用扩散模型(Diffusion Model)来生成未来。

3D Mesh:从像素到几何的飞跃

PhysiFormer不像传统视频模型那样处理像素图像,而是将物体表示为3D网格(3D Mesh)。一个3D网格由两部分组成: – 顶点(Vertices):物体表面上的离散点,每个顶点有3D坐标(x, y, z) – 面(Faces):连接这些顶点形成的多边形(通常是三角形),定义了物体的表面

这种表示方式有几个巨大的优势:

1. 几何显式化

物体的形状被显式地表示为几何结构,而不是隐含在像素值的统计模式中的。模型可以直接操作几何量——移动顶点、变形表面、计算碰撞——而不是通过像素变换来间接推断几何变化。

2. 视图无关性

3D网格是与视图无关的。同一个3D网格,可以从任意角度渲染成2D图像。这意味着模型学到的物理规律是”世界空间”中的,而不是”像素空间”中的。无论你从哪个角度看一个物体,它的3D网格表征是一样的。

3. 物理操作的直接性

在3D网格上,物理操作变得直接而自然。要模拟一个物体的运动,你只需要更新它的顶点位置。要模拟变形,你只需要修改顶点的相对位置。要计算碰撞,你只需要检测网格之间的几何相交。这些操作在像素空间中几乎是不可能的——在像素空间中,你甚至无法直接”看到”一个物体的3D形状。

世界坐标系:物理的”通用语言”

PhysiFormer的另一个关键设计是:所有的计算都在世界坐标系(World Coordinates)中进行,而不是在摄像机坐标系或视图坐标系中。

世界坐标系是一个绝对、固定、与观察者无关的参考系。在这个坐标系中,物体的位置是绝对的,运动是客观的。无论摄像机在哪里,一个物体的世界坐标(x, y, z)是不变的。

这与像素空间形成了鲜明对比。在像素空间中,物体的位置是相对的——它取决于摄像机的位置、角度、焦距。同一个物体,摄像机靠近一点,它在像素空间中的位置就会改变;摄像机旋转一点,它的像素坐标也会改变。这种”相对性”使得物理规律在像素空间中变得极其复杂和隐晦。

打个比方:像素空间就像是你站在一个房间里,用相机拍摄物体的照片。世界坐标系就像是你有一张房间的蓝图,上面有每个物体的精确位置。在蓝图上,物体的位置是绝对的、不变的。在照片上,物体的位置取决于你站在哪里、朝哪个方向拍摄。如果你想理解物体的物理运动,蓝图比照片有用得多。

扩散模型 + 物理 = PhysiFormer

PhysiFormer使用扩散模型(Diffusion Model)来生成未来的3D运动。具体来说,它是一个扩散Transformer(Diffusion Transformer),直接在世界坐标系中预测顶点轨迹。

让我们拆解这个过程:

输入: – 初始时刻的顶点位置(3D坐标) – 初始时刻的顶点速度(3D速度向量) – 物体材料类型(刚体或弹性体)

输出: – 未来一系列时刻的顶点位置轨迹

过程: PhysiFormer不是直接预测顶点位置,而是将顶点轨迹预测作为一个去噪扩散过程

具体来说: 1. 从一个随机的噪声轨迹开始(每个顶点在每个时刻的位置都是随机噪声) 2. 通过多步去噪,逐步将这个噪声轨迹转化为一个物理上合理的轨迹 3. 每一步去噪,模型都基于当前状态、物理规律、材料属性,推断出噪声应该被如何去除 4. 最终,噪声被完全去除,得到一个平滑、物理一致的顶点轨迹

这种扩散模型的方法有几个优势:

1. 概率性生成

扩散模型天然支持概率性生成。给定相同的初始条件,不同的去噪路径可以产生不同的未来轨迹。这在物理模拟中是极其重要的,因为物理系统本质上是混沌的——初始条件的微小扰动会导致完全不同的长期行为。扩散模型可以捕捉这种不确定性,生成多种可能的未来,而不是一个确定性的预测。

2. 无需显式物理约束

传统物理模拟方法需要显式编码物理约束(如动量守恒、能量守恒、刚性约束)。这需要复杂的数学建模和数值优化。但PhysiFormer展示了:如果你有足够的训练数据,模型可以隐式地学习这些物理约束,而不需要显式编码。

这类似于深度学习的一个核心发现:你不需要手动设计特征提取器,神经网络可以自己学习特征。同样,PhysiFormer表明,你不需要手动编码物理定律,扩散模型可以从数据中学习物理定律的统计规律。

3. 统一的刚体和弹性体处理

传统物理模拟对刚体和弹性体通常使用不同的方法(刚体用刚体动力学,弹性体用有限元分析)。但PhysiFormer用同一个模型处理两种材料。模型只需要知道”这是刚体”或”这是弹性体”,它就会生成相应的运动——刚体保持形状不变,弹性体发生变形。

🧩 架构深挖:时空对象的注意力分解

PhysiFormer的架构设计体现了一种深刻的物理洞察:物理运动可以在时间、空间、对象三个维度上分解。

注意力分解(Attention Factorization)

在标准的Transformer中,注意力机制允许所有token之间两两交互。但在物理模拟中,这种全连接交互是浪费的,因为物理规律天然具有局部性和分解性

PhysiFormer提出了三种注意力分解:

1. 时间注意力(Temporal Attention)

同一个顶点在不同时间步之间的注意力。这捕捉了物理的时间演化——一个顶点在下一时刻的位置,主要依赖于它在前一时刻的位置和速度。时间注意力允许模型学习时间上的因果性和平滑性。

2. 空间注意力(Spatial Attention)

同一个物体在不同顶点之间的注意力。这捕捉了物体的几何结构——一个物体的不同顶点之间是有关联的(比如通过边连接),它们不能独立运动。空间注意力允许模型学习物体的几何约束。

3. 对象注意力(Object Attention)

不同物体之间的注意力。这捕捉了物体之间的交互——比如碰撞、接触、引力。对象注意力允许模型学习多物体之间的物理关系。

这种分解式注意力的计算效率远高于全连接注意力。更重要的是,它体现了物理的层次结构: – 在最底层,顶点的运动由时间注意力控制(时间演化) – 在中间层,顶点的运动由空间注意力约束(几何结构) – 在最高层,物体的运动由对象注意力调节(物体交互)

这种层次结构与物理本身的层次结构完美对应: – 物理定律(如牛顿方程)控制时间演化 – 几何约束(如刚性约束)控制物体形状 – 边界条件(如碰撞、接触)控制物体间交互

置换不变性:多物体推理的关键

PhysiFormer还实现了一个重要的数学性质:置换不变性(Permutation Invariance)

当场景中有多个物体时,物体的顺序不应该影响物理模拟的结果。无论你把物体A标记为”物体1″、物体B标记为”物体2″,还是反过来,物理结果应该是相同的。PhysiFormer通过架构设计,确保了这种置换不变性,使得模型可以处理任意数量的物体,而不需要为每个物体分配特定的编码。

这在传统方法中是困难的。传统方法通常需要为每个物体显式地分配一个ID或编码,然后分别处理每个物体。但PhysiFormer通过注意力分解,自然地实现了置换不变性——物体的身份不是通过外部标签来编码的,而是通过它们在空间中的几何关系来隐式定义的。

🧪 实验验证:从模拟到现实,从刚体到弹性

训练数据:10万+模拟轨迹

PhysiFormer在超过10万个模拟轨迹上训练。这些轨迹涵盖了多种物理场景: – 刚体运动(碰撞、滚动、滑动) – 弹性体变形(拉伸、压缩、弯曲) – 混合材料场景(刚体和弹性体同时存在)

训练数据来自物理模拟器,这意味着每个训练样本都有”物理正确”的标注。这使得模型可以从”物理正确”的数据中学习,而不是从”看起来像”的视频中学习。

与自回归基线的对比

论文对比了PhysiFormer与传统的自回归基线(Autoregressive Baselines)。自回归模型(如很多视频预测模型)一步一步地预测未来:先预测下一帧,然后基于预测的下一帧再预测下下一帧,如此递归。

这种自回归方法有一个致命的问题:误差累积。每一步的预测都有微小误差,这些误差在递归过程中被放大,导致长期预测完全偏离物理现实。这类似于你在玩”传话游戏”——第一个人说一句话,传给第二个人,第二个人传给第三个人…到第十个人时,原始信息已经完全变形了。

PhysiFormer的扩散模型方法避免了这个问题。它不是一步一步地递归预测,而是一次性生成整个轨迹,然后通过去噪过程逐步优化。这类似于一个雕塑家:他不是一块一块地添加石头,而是先有一个整体的粗坯,然后逐步细化和打磨。这种”全局优化”的方式,避免了局部误差的累积。

实验结果验证了这一点: – 轨迹准确性:PhysiFormer的预测轨迹与真实物理轨迹的误差显著低于自回归基线 – 刚性保持:对于刚体,PhysiFormer能更好地保持物体的形状不变(即顶点之间的相对位置不变),而自回归基线会逐渐让物体变形 – 动量一致性:PhysiFormer生成的轨迹更符合动量守恒等物理规律,而自回归基线会逐渐”遗忘”这些约束

泛化能力:从未见过的世界

PhysiFormer最令人印象深刻的是它的泛化能力

1. 未见过的几何形状

模型在训练时见过的物体都是某些特定形状(如球、立方体、圆柱体)。但测试时,给它一个完全陌生的形状(如一个复杂的动物模型),它仍然能生成物理上合理的运动。这说明模型学到的不是”特定形状的运动规律”,而是普遍的物理规律

2. 更多的物体

训练时场景中通常只有几个物体。但测试时,给模型一个包含更多物体的场景,它仍然能处理。这说明置换不变性的设计确实有效——模型不受物体数量的限制。

3. 真实世界数据

论文还展示了PhysiFormer在真实世界数据上的表现。虽然模型完全是在模拟数据上训练的,但当给定真实世界的初始状态时(比如从视频中重建的3D网格),它仍然能生成合理的未来运动。这证明了模型学到的物理规律具有一定的跨域迁移能力——从模拟到真实。

🌠 为什么这项工作改变了游戏规则?

从”看起来像”到”真的是”

当前的视频生成模型(如Sora)在生成视觉上令人印象深刻的视频方面取得了巨大进步。但如果我们仔细观察,这些视频中的物理往往是不正确的。物体可能穿过墙壁,球可能违反重力向上飞,弹性碰撞可能不遵守能量守恒。这些模型在”看起来像物理世界”方面做得很好,但在”真的是物理世界”方面做得很差。

PhysiFormer代表了一个根本不同的方向:它不关心”看起来像”,它只关心”真的是”。它直接在世界坐标系中模拟物理,生成的是物理上正确的运动,而不是视觉上好看的视频。如果要从PhysiFormer的输出生成视频,你需要一个额外的渲染步骤——将3D网格渲染成2D图像。但这个渲染步骤是可选的、可替换的。你可以用不同的渲染器、不同的光照、不同的材质,而物理运动本身是不变的。

这种分离(物理 vs. 渲染)是物理学和计算机图形学中的一个经典原则。PhysiFormer重新引入了这种分离到AI世界模型中,这是一个重要的范式转换。

世界模型的”物理基础”

Yann LeCun近年来一直在倡导”世界模型(World Models)”的愿景:AI系统应该拥有一个内部的”世界模拟器”,能够预测行动的后果。但LeCun的愿景主要关注的是语义层面的预测(”如果我推这个杯子,它会倒”),而不是物理层面的精确模拟(”如果我推这个杯子,它会在0.3秒后倒下,倒下的角度是45度,然后滚0.5米”)。

PhysiFormer为LeCun的愿景提供了物理基础。它展示了如何构建一个能够进行精确物理预测的世界模型。这种精确的物理预测能力,对于机器人操作(如抓取、装配)、自动驾驶(如碰撞预测)、物理设计(如结构优化)等领域,是至关重要的。

坐标系空间的重要性

PhysiFormer的一个深层启示是:坐标系的选择,对于学习物理至关重要。

机器学习领域有一句格言:”特征工程决定了机器学习的上限,模型只是逼近这个上限。”在物理模拟中,这句话可以改为:”坐标系的选择决定了物理学习的天花板,模型只是在这个坐标系中逼近物理规律。”

像素坐标系是一个糟糕的物理坐标系,因为它把物理规律、视图依赖、外观属性全部混在了一起。世界坐标系是一个更好的物理坐标系,因为它分离了物理(世界坐标)和外观(视图坐标)。

PhysiFormer的成功,可能会启发未来更多的AI研究重新思考”表征空间”的问题。也许不仅仅是物理模拟,对于其他领域(如因果推理、逻辑推理、知识表示),也存在类似的”坐标系选择”问题——选择一个合适的表征空间,可能比设计更复杂的模型更重要。

🔮 未来展望:当AI真正”理解”物理

场景一:机器人操作中的物理直觉

想象一个机器人需要组装一个复杂的家具。它需要理解哪些部件是刚性的(如木板),哪些部件是弹性的(如橡胶垫),哪些连接是固定的(如螺丝),哪些连接是活动的(如铰链)。传统的机器人方法需要手动编码所有这些物理属性。但有了PhysiFormer,机器人可以从观察中自动推断物理属性,然后生成物理上合理的操作策略。

更重要的是,机器人可以利用PhysiFormer进行预测性模拟。在真正执行一个动作之前,它可以在内部模拟这个动作的后果:”如果我这样推,这个物体会怎么运动?如果它会倒,我应该怎么调整力度和方向?”这种”先模拟、后执行”的能力,将大大提高机器人的操作成功率和安全性。

场景二:物理设计中的AI辅助

工程师在设计产品时,通常需要进行大量的物理模拟(如有限元分析)。这些模拟计算成本高昂,通常需要数小时甚至数天。PhysiFormer可以被训练成一个快速的、近似的物理模拟器,在毫秒级的时间内给出物理预测。工程师可以在设计迭代过程中,使用PhysiFormer进行快速的”草稿级”模拟,只在最终验证阶段使用精确但缓慢的传统模拟器。

这将极大地加速物理设计的过程,无论是建筑设计、汽车设计、还是消费品设计。

场景三:教育中的可视化物理

物理学习最大的困难之一是抽象性。学生很难理解微分方程描述的物理规律。但PhysiFormer可以将这些抽象方程转化为直观的3D动画。学生可以调整初始条件(如改变重力、改变质量),然后立即看到物理结果。这种”可交互的物理”将让物理学习变得更加直观和有趣。

场景四:影视和游戏产业

在影视和游戏产业中,物理模拟(如布料模拟、流体模拟、刚体碰撞)是计算成本最高的环节之一。传统的物理引擎(如PhysX、Havok)需要大量的手工参数调整。PhysiFormer提供了一种数据驱动的物理模拟方法,可以从真实的物理数据中学习,自动推断物理参数。这将降低物理模拟的门槛,同时提高物理真实感。

📜 结论:让世界回到世界

PhysiFormer的核心贡献,可以用一个诗意的表达来概括:让世界回到世界。

当前的视频生成模型把世界囚禁在像素中。像素是一个美丽的牢房——它让机器可以生成令人惊叹的视觉效果。但它也是一个残酷的牢房——它让机器无法真正理解物理规律。物理规律在像素空间中是被扭曲的、隐晦的、不可达的。

PhysiFormer打破了这座牢房。它将世界从像素中解放出来,让它回到自己的坐标系——世界坐标系。在这个坐标系中,物理规律是清晰的、显式的、直接的。物体的位置是绝对的,运动是客观的,变形是真实的。

这种转变不仅仅是技术上的改进,它是一种哲学上的回归。它提醒我们:物理学的本质不是像素,而是几何;不是视图,而是世界;不是外观,而是规律。

当AI真正学会在世界坐标系中”做梦”,它梦见的不只是美丽的画面,而是物理的真相。它梦见的,是人类在直觉中早已掌握的那个世界——球会滚,桥会晃,弹簧会弹,水会流。这个梦中的世界,不需要摄像机,不需要光照,不需要颜色。它只需要三个维度,和一个时钟。

PhysiFormer让我们看到了这个梦的可能性。当世界有了自己的坐标系,物理学就在机器的梦境中,重生了。

📚 参考文献与延伸阅读

核心论文: – Chen, Y., Lan, Y., & Vedaldi, A. (2026). PhysiFormer: Learning to Simulate Mechanics in World Space. arXiv preprint. https://yimingc9.github.io/physiformer

相关工作: – Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. NeurIPS 2020. – Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. ICCV 2023. – Battaglia, P.W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint. – LeCun, Y. (2022). A path towards autonomous machine intelligence. Open Review.

#论文推荐 #arXiv #物理模拟 #世界模型 #3D几何 #扩散模型 #小凯

发表回复

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 🐾 智柴网 沪ICP备2024052574号-1