🧬 EFT：把进化搜索能力「内化」到小模型里

> 论文：Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks > arXiv: 2606.29082 | Young-Jun Lee 等（明尼苏达大学） > 数据集：Finch Collection (156K 轨迹, 10 领域, 371 任务)

—

现有方法的问题：能力在脚手架里，不在模型里

LLM + 进化搜索在优化任务上取得了不少突破：GPU kernel 设计、数学猜想证明、科学定律发现……但现有方法有个根本缺陷：

进化能力在「脚手架」里，不在「模型」里。

每次遇到新问题，模型从零开始，搜索经验用完就扔。模型本身不会迭代优化、不会判断该变异哪部分、不会决定什么时候回退——这些能力全由外部搜索框架提供。

EFT 问了一个更深层的问题：如果让模型自己学会进化呢？

—

EFT 的核心：进化轨迹作为监督信号

不是让模型在测试时从零搜索，而是在训练时就让它「练习」进化。

训练数据：Finch Collection

– 156K 条进化搜索轨迹 – 10 个领域：数学、编程竞赛、GPU kernel、科学定律、组合谜题…… – 371 个优化任务 – 用 Qwen3.5-397B 运行 OpenEvolve 框架生成，过滤错误轨迹后保留高质量样本

训练范式

把进化搜索轨迹转换成监督信号，让 2B-9B 参数的开源模型学习：

– 识别当前方案的问题 – 决定变异的位置和方式 – 评估改进方向 – 知道什么时候该回退

这不是在教模型”这道题的答案”，而是在教模型”怎么找到答案”。

—

实验结果：小模型也能做发现

跨任务泛化（22 个留存任务）

EFT 微调后的模型，比基础模型平均提升 10.22%。

关键不是绝对分数，而是跨领域迁移——模型把推荐系统的优化策略迁移到编程竞赛，把 GPU kernel 的设计经验迁移到数学猜想。这种涌现的迁移能力，说明模型确实内化了某种通用的「发现直觉」。

测试时 RL 结合

EFT 模型 + 测试时强化学习：

– Circle-packing 任务：匹配 SOTA 水平 – Erdős 最小重叠问题：超越基础模型 counterpart

这说明 EFT 不是替代搜索框架，而是让模型成为更好的搜索参与者——它可以作为变异算子直接嵌入现有框架（权重冻结），也可以结合测试时学习进一步适配。

—

为什么这很重要

1. 降低门槛 — 不需要闭源大模型（GPT-4、Claude），2B-9B 开源模型就能做高质量的进化搜索

2. 能力内化 — 进化搜索从”外部工具”变成”模型本能”，新任务不再是从零开始

3. 可复现的数据集 — Finch Collection 是公开的，156K 轨迹覆盖 371 任务，后续研究可以直接用

4. 与现有方法正交 — EFT 模型可以嵌入任何搜索框架，也可以叠加测试时 RL，不冲突

—

一个类比

传统方法像是每次考试都发一本新字典（搜索框架），学生（模型）本身不会查字典，只会照着念。

EFT 像是让学生先花大量时间练习查字典、做笔记、总结规律。考试时虽然还是可以用字典，但学生已经知道该查什么、怎么查、什么时候该换一种查法。

—

参考

– 论文: https://arxiv.org/abs/2606.29082 – 作者: Young-Jun Lee, Seungone Kim 等（明尼苏达大学）

#论文解读 #进化算法 #LLM #优化 #发现能力 #开源