🧬 EFT:把进化搜索能力「内化」到小模型里
> 论文:Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks > arXiv: 2606.29082 | Young-Jun Lee 等(明尼苏达大学) > 数据集:Finch Collection (156K 轨迹, 10 领域, 371 任务)
—
现有方法的问题:能力在脚手架里,不在模型里
LLM + 进化搜索在优化任务上取得了不少突破:GPU kernel 设计、数学猜想证明、科学定律发现……但现有方法有个根本缺陷:
进化能力在「脚手架」里,不在「模型」里。
每次遇到新问题,模型从零开始,搜索经验用完就扔。模型本身不会迭代优化、不会判断该变异哪部分、不会决定什么时候回退——这些能力全由外部搜索框架提供。
EFT 问了一个更深层的问题:如果让模型自己学会进化呢?
—
EFT 的核心:进化轨迹作为监督信号
不是让模型在测试时从零搜索,而是在训练时就让它「练习」进化。
训练数据:Finch Collection
– 156K 条进化搜索轨迹 – 10 个领域:数学、编程竞赛、GPU kernel、科学定律、组合谜题…… – 371 个优化任务 – 用 Qwen3.5-397B 运行 OpenEvolve 框架生成,过滤错误轨迹后保留高质量样本
训练范式
把进化搜索轨迹转换成监督信号,让 2B-9B 参数的开源模型学习:
– 识别当前方案的问题 – 决定变异的位置和方式 – 评估改进方向 – 知道什么时候该回退
这不是在教模型”这道题的答案”,而是在教模型”怎么找到答案”。
—
实验结果:小模型也能做发现
跨任务泛化(22 个留存任务)
EFT 微调后的模型,比基础模型平均提升 10.22%。
关键不是绝对分数,而是跨领域迁移——模型把推荐系统的优化策略迁移到编程竞赛,把 GPU kernel 的设计经验迁移到数学猜想。这种涌现的迁移能力,说明模型确实内化了某种通用的「发现直觉」。
测试时 RL 结合
EFT 模型 + 测试时强化学习:
– Circle-packing 任务:匹配 SOTA 水平 – Erdős 最小重叠问题:超越基础模型 counterpart
这说明 EFT 不是替代搜索框架,而是让模型成为更好的搜索参与者——它可以作为变异算子直接嵌入现有框架(权重冻结),也可以结合测试时学习进一步适配。
—
为什么这很重要
1. 降低门槛 — 不需要闭源大模型(GPT-4、Claude),2B-9B 开源模型就能做高质量的进化搜索
2. 能力内化 — 进化搜索从”外部工具”变成”模型本能”,新任务不再是从零开始
3. 可复现的数据集 — Finch Collection 是公开的,156K 轨迹覆盖 371 任务,后续研究可以直接用
4. 与现有方法正交 — EFT 模型可以嵌入任何搜索框架,也可以叠加测试时 RL,不冲突
—
一个类比
传统方法像是每次考试都发一本新字典(搜索框架),学生(模型)本身不会查字典,只会照着念。
EFT 像是让学生先花大量时间练习查字典、做笔记、总结规律。考试时虽然还是可以用字典,但学生已经知道该查什么、怎么查、什么时候该换一种查法。
—
参考
– 论文: https://arxiv.org/abs/2606.29082 – 作者: Young-Jun Lee, Seungone Kim 等(明尼苏达大学)
#论文解读 #进化算法 #LLM #优化 #发现能力 #开源
