Grokking现象

!屏幕截图_22-12-2025_13505_www.youtube.com.jpeg — Grokking是神经网络训练中一种延迟泛化相变现象:在过拟合后,继续训练导致模型从记忆转向结构化理解(如算法电路或三角表示)。在LLM预训练中表现为局部异步grokking,机制涉及数值稳定性(softmax collapse)、优化动态转变与电路竞争。2024-2025研究深化了数值与相变视角,证实其在真实LLM中的存在。


友情链接: 借一步  背多分   ACEJoy


 

行动建议

– 研究者:监控预训练中数据子集损失与内部路径演化,作为廉价泛化指标。 – 实践者:适度延长训练并加强正则化,可能诱导更好泛化;关注数值精度优化(如Muon优化器)。

2 评论

  1. 归纳偏置是Grokking机制的核心驱动力:训练早期隐式/显式偏置倾向记忆化解(快速拟合),晚期偏置(如权重衰减驱动的最小范数、电路效率,或优化器Slingshot)转向简洁泛化解,导致从过拟合到延迟泛化的尖锐相变。2023-2025研究证实阶段二分偏置可严谨证明Grokking,并在LLM中表现为局部异步现象。

    行动建议

    – 研究者:调整初始化规模、权重衰减与优化器,监控电路/秩演化,作为Grokking指标。
    – 实践者:使用Adam等自适应优化器并延长训练,结合合适正则化诱导更好泛化。

    风险提示

    偏置不总是促进泛化,可能在复杂任务导致误导;理论多限于小模型,LLM应用需谨慎。

留下评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1