面壁智能 ForgeTrain:AI 自己写训练框架,8 小时追平 Megatron-LM

事件内容

7 月 3 日,面壁智能联合 OpenBMB 开社区、AGI BAR 公开了一套生产级大模型预训练框架——ForgeTrain。技术负责人李宇轩给出了一组实证数字:在指定模型(MiniCPM4-0.5B/8B)+ 指定硬件(H100、华为昇腾 NPU)的目标场景下,ForgeTrain 8 小时内追平业界旗舰 Megatron-LM 性能;1.5 至 2 天内稳定反超,MFU(Model FLOPS Utilization)提升约 8%-10%。整个框架完全由 AI 自己从零「锻造」,没有人类写过一行代码。

支持迁移是一个关键数字:同一套方法,既能覆盖英伟达 H100 集群,也能覆盖华为昇腾 NPU——意味着「锻造」出的不是某家专用实现,而是一套可复制的工程套路。

深度剖析

第一,这件事不是「写了一个新框架」,而是把「写框架」这件事自动化了。

传统大模型训练框架(Megatron-LM、DeepSpeed、PaddlePaddle 等)有一个共同特点:由人写代码、靠人工调优、对特定硬件和模型架构做深度手写优化。这条路的工程成本极高——英伟达 Megatron-LM 团队维护了几十名顶尖工程师,做了五年,才有今天业界旗舰的地位。面壁的实验直接把这条路径翻转了:人类写「锻造规则」,AI 在数小时内写出对应硬件/模型的最优框架。

第二,核心是「Harness 优化四阶段」,这是一个清晰的工程抽象。

锻造一个框架不是一步到位。李宇轩把整个过程拆成四阶段:Harness 优化流程,每阶段锁住前一阶段的正确性:

– Anchor 阶段:生成与参考实现逐位一致的二进制级对比基线(max_abs_diff = 0),确保 AI 写出来的代码在「可信」维度先过线 – Bit-for-Bit 阶段:在保证二进制一致的前提下,快速补齐 checkpoint 写入、加载、恢复等基础功能 – Surpass 阶段:解除二进制约束,允许 AI 自己枚举算子路径、图捕获、调度组合,追求更长时间窗口的训练稳定性 – Per-Op 阶段:针对 GEMM、FlashAttention 这类核心算子做深度定制,和硬件绑定追求单算子 MFU 最大化

这种「单调递进、不可回滚」的工程抽象,把「自动写框架」从一个黑盒变成了一条可验证的流水线。这其实是 Harness Engineering(把基模以外的一切纳入工程体系)这个大命题下的一个具体范式。

第三,「Forge Engineering」是面壁给这个行业提出的新词。

李宇轩提炼了一个工程哲学层面的判断——长期维护一套「通用框架来适配多种硬件」,在 AI 模型与芯片迭代速度远超基础软件迭代速度的当下,会越来越低效。取而代之的,是「生产便宜、高效定制」:根据模型和硬件的具体特征,即时生成量身定做的训练软件栈。面壁认为,「英伟达多年来靠人力和生态积累的护城河,正在转化为一个可以被 AI 自动解耦和重构的技术问题」。

第四,「L1-L5 能力阶梯」是这个框架背后的认知地图。

面壁把「AI 制造 AI」这件事分成了五级:L1 提示建议、L2 辅助研发、L3 闭环交付、L4 递归改进、L5 协同演化。在通用智能维度,初版 L4 已经达成;但在「AI 制造 AI」这个垂直能力上,目前 L2 已站稳,L3 仅 Anthropic 等极少数团队能勉强做到且效果不稳。ForgeTrain 是面壁对「如何跨越 L3 直接冲击 L4」给出的单点实证。

值得关注的原因

对工程界:这可能是过去两年最值得复盘的「训练基础设施」实验。

过去训练框架的护城河是「人力写代码 + 人工调优」,ForgeTrain 把这条护城河从「代码受信」变成「智能受信」。这件事一旦工程化普及,大模型训练的成本结构会被颠覆——一个 5 人小团队以前只能跑别人写好的标准框架,以后可以 prompt 一下,就让 AI 写出针对自家硬件最优的训练框架。

对国产算力侧:这是一次关键验证。

面壁的报告里特别强调,锻造过程可以迁移到华为昇腾 NPU。国产 NPU 一直被诟病「软件生态不足、需要专门工程师团队写适配代码」。ForgeTrain 的实证意味着:哪怕国产 NPU 的软件栈不如 CUDA 丰富,AI 也可以「按需补齐」。这对华为、寒武纪、海光、燧原等都是直接的工程利好。

对 AI 安全和监管:这是一件需要被讨论的事。

一个完全由 AI 写成、用于训练下一代大模型的代码,要不要纳入 AI 系统的合规审查?目前没有任何标准答案。但 ForgeTrain 一旦被广泛采用,这会是监管层必须正面回答的问题。

风险与待观察

第一,ForgeTrain 报告的是 MFU 提升 8-10%、8 小时追平、2 天反超。这个速度合理,但要看到这是「同模型、同硬件、同硬件版本」下的工程优化,不是「AI 自己发现新算法」。AI 在写代码层面做得漂亮,但「算法创新」暂时不在 L4 这个单点实证的范围内。

第二,Megatron-LM 团队可能会因为这次实证加速自己的自动化进程。ForgeTrain 报告出来后,大厂的训练框架团队也会被「倒逼」快速跟进,半年内很可能会有同行放出类似工具。

第三,「无人类干预」这个描述,要小心理解。AI 写出的代码可能有专家团队在 prompt 层做约束、评估层做实验验证,所以「无人干预」的真实含义可能是「无人在写代码环节干预」,不是说整个流程完全无人参与。这一点在沟通时要避免被过度宣传。

来源:面壁智能 AI Infra 技术负责人李宇轩 2026 年 6 月 27 日「AI4AI 发酵夜」演讲、面壁智能 7 月 3 日公众号复盘

事件内容

深度剖析

值得关注的原因

风险与待观察

发表回复取消回复

实时焦点