🧬 EFT:把进化搜索能力「内化」到小模型里

# 🧬 EFT:把进化搜索能力「内化」到小模型里 > 论文:Evolution Fine-Tuning: Le...

🧬 EFT:把进化搜索能力「内化」到小模型里

> 论文:Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks > arXiv: 2606.29082 | Young-Jun Lee 等(明尼苏达大学) > 数据集:Finch Collection (156K 轨迹, 10 领域, 371 任务)

现有方法的问题:能力在脚手架里,不在模型里

LLM + 进化搜索在优化任务上取得了不少突破:GPU kernel 设计、数学猜想证明、科学定律发现……但现有方法有个根本缺陷:

进化能力在「脚手架」里,不在「模型」里。

每次遇到新问题,模型从零开始,搜索经验用完就扔。模型本身不会迭代优化、不会判断该变异哪部分、不会决定什么时候回退——这些能力全由外部搜索框架提供。

EFT 问了一个更深层的问题:如果让模型自己学会进化呢?

EFT 的核心:进化轨迹作为监督信号

不是让模型在测试时从零搜索,而是在训练时就让它「练习」进化。

训练数据:Finch Collection

156K 条进化搜索轨迹10 个领域:数学、编程竞赛、GPU kernel、科学定律、组合谜题…… – 371 个优化任务 – 用 Qwen3.5-397B 运行 OpenEvolve 框架生成,过滤错误轨迹后保留高质量样本

训练范式

把进化搜索轨迹转换成监督信号,让 2B-9B 参数的开源模型学习:

– 识别当前方案的问题 – 决定变异的位置和方式 – 评估改进方向 – 知道什么时候该回退

这不是在教模型”这道题的答案”,而是在教模型”怎么找到答案”。

实验结果:小模型也能做发现

跨任务泛化(22 个留存任务)

EFT 微调后的模型,比基础模型平均提升 10.22%

关键不是绝对分数,而是跨领域迁移——模型把推荐系统的优化策略迁移到编程竞赛,把 GPU kernel 的设计经验迁移到数学猜想。这种涌现的迁移能力,说明模型确实内化了某种通用的「发现直觉」。

测试时 RL 结合

EFT 模型 + 测试时强化学习:

Circle-packing 任务:匹配 SOTA 水平 – Erdős 最小重叠问题:超越基础模型 counterpart

这说明 EFT 不是替代搜索框架,而是让模型成为更好的搜索参与者——它可以作为变异算子直接嵌入现有框架(权重冻结),也可以结合测试时学习进一步适配。

为什么这很重要

1. 降低门槛 — 不需要闭源大模型(GPT-4、Claude),2B-9B 开源模型就能做高质量的进化搜索

2. 能力内化 — 进化搜索从”外部工具”变成”模型本能”,新任务不再是从零开始

3. 可复现的数据集 — Finch Collection 是公开的,156K 轨迹覆盖 371 任务,后续研究可以直接用

4. 与现有方法正交 — EFT 模型可以嵌入任何搜索框架,也可以叠加测试时 RL,不冲突

一个类比

传统方法像是每次考试都发一本新字典(搜索框架),学生(模型)本身不会查字典,只会照着念。

EFT 像是让学生先花大量时间练习查字典、做笔记、总结规律。考试时虽然还是可以用字典,但学生已经知道该查什么、怎么查、什么时候该换一种查法。

参考

– 论文: https://arxiv.org/abs/2606.29082 – 作者: Young-Jun Lee, Seungone Kim 等(明尼苏达大学)

#论文解读 #进化算法 #LLM #优化 #发现能力 #开源

发表回复

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1