SpeechCombine:不做指令微调,权重相加就能让语音模型听懂人话
> 论文:Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning > 作者:Congrui Du, Ziyang Ma, Yifan Yang, Jian Yang, Xie Chen, Wei-Qiang Zhang > 机构:Tsinghua University, Shanghai Jiao Tong University, Tencent AI Lab > 会议:ICML 2026 > 链接:https://arxiv.org/abs/2607.02214 > 代码:https://github.com/CongruiDu/SpeechCombine
—
一个反直觉的发现
在 LLM 时代,几乎所有能力的获得都遵循一个套路:收集指令数据 → SFT → RLHF → 得到能力。想让它会写代码?喂代码指令数据。想让它会做数学?喂数学指令数据。想让它听懂语音指令?那就喂语音指令数据。
SpeechCombine 论文说:等等,语音指令这件事,可能不需要指令数据。
清华团队发现了一个惊人的事实:把一个文本 LLM 的「指令遵循能力」通过简单的权重算术迁移到语音模型上,不需要任何语音指令数据,不需要 SFT,不需要 RL。一行公式:
其中 。
就这?就这。但效果炸裂。
背景:语音 LLM 的数据膨胀困境
要理解这个发现为什么重要,得先看语音 LLM 的现状。
训练一个能听懂指令的语音语言模型(Speech Language Model, SLM),标准流程是:
1. 语音预训练:在大量语音数据上做 next-token prediction,让模型学会语音 token 的统计规律 2. 语音指令微调:收集大量「语音指令-语音回答」数据,做 SFT 3. 偏好对齐:用 RLHF 或 DPO 让模型回答更符合人类偏好
第 2 步是最大的瓶颈。问题在于数据膨胀:
一句话「How are you」用文本只有 5 个 token,但用语音 token 可能有几百个。一段 10 秒的语音指令,文本形式可能 20 个 token,语音形式可能 500+ 个 token。这意味着同样信息量的指令数据,语音版本要占用 10-100 倍的训练资源。
更糟的是,语音指令数据本身就稀缺。文本指令数据可以从网页、论坛、问答社区大规模收集,但「语音指令-语音回答」对几乎没有自然来源,只能靠 TTS 合成,质量和多样性都受限。
结果:当前 SLM 的指令遵循能力远落后于文本 LLM。不是算法不行,是数据喂不动。
SpeechCombine 的核心思路:能力是向量,可以加减
SpeechCombine 的灵感来自一个已经被验证过的现象:模型微调后的权重变化(task vector)是可以线性组合的。
具体来说,如果你有一个 base 模型 和一个经过指令微调的版本
,它们的差
就编码了「指令遵循能力」。这个
可以加到其他模型上,让它们也获得指令遵循能力。
这个想法在文本模型上已经被验证过(Chat Vector、BILLY、Preference Vector 等工作),但没有人验证过它能否跨模态迁移——从文本 LLM 的 迁移到语音 LLM。
SpeechCombine 做的就是这件事:
1. 取一个文本 LLM 的 base 版本 和 instruct 版本
(论文用 QWEN3-8B)
2. 在
上做一轮语音预训练(LoRA 微调,rank 64),得到
——这个模型只会语音续写,不懂指令
3. 直接相加:
没有 SFT,没有 RL,没有任何语音指令数据。语音预训练只用了 30k 小时数据,一轮 next-token prediction 搞定。
效果:打败一众大力出奇迹的对手
SpeechCombine 在多个基准上测试,对手都是用了大量语音指令数据训练的模型:
| 模型 | 训练方式 | SpeechCombine 对比 |
|---|---|---|
| GLM-4-Voice | 大规模语音指令 SFT | SpeechCombine 更好 |
| Audio-Flamingo | 语音指令 SFT + RL | SpeechCombine 更好 |
| Step-Audio2-mini | 工业级训练 | SpeechCombine 更好 |
| QWEN-2.5-Omni | 全模态训练 | SpeechCombine 更好 |
| Kimi-Audio | 大规模训练 | SpeechCombine 大部分更好 |
一个只用 30k 小时语音数据 + 一行权重加法的模型,打败了一堆用了百万小时数据和复杂训练流程的工业级模型。
为什么这能work?两个关键设计
1. 浅层组合 vs 深层组合
论文区分了两种组合方式:
– 浅层组合(Shallow Combination):只在 embedding 层和 output 层做权重相加,中间层保持不变 – 深层组合(Deep Combination):所有层都做权重相加
实验发现,深层组合效果远好于浅层组合。这说明指令遵循能力不是表层技巧,而是分布在模型的所有层中——从底层特征提取到高层决策推理,每一层都参与了「理解指令」这件事。
2. LoRA 的关键作用
语音预训练用的是 LoRA(rank 64),不是全参数微调。这有一个微妙但关键的好处:
LoRA 只更新一小部分参数(低秩矩阵),大部分参数保持和 一致。这意味着
和
的差异很小,主要集中在语音相关的参数上。当加上
时,这个差异向量主要影响的是和指令遵循相关的参数,而不是语音处理相关的参数。
如果用全参数微调, 可能会大幅偏离
,加上
后可能会干扰语音处理能力。LoRA 起到了一个「保护壳」的作用。
意外收获:长思维链能力也迁移了
论文报告了一个意外的发现:SpeechCombine 不仅获得了指令遵循能力,还继承了文本 LLM 的长思维链(long-thinking)能力。
QWEN3-8B-instruct 有较强的长链推理能力(能在回答前做长篇思考)。SpeechCombine 加上 后,在语音任务上也展现出了类似的长思维链行为——模型会在给出最终语音回答前,先做一段较长的内部推理。
这说明 编码的不只是「指令遵循」,而是文本 LLM 通过 RLHF 获得的整体行为模式,包括推理风格、回答结构、甚至「思考习惯」。
这是一个很强的发现:模型的行为模式可以作为向量跨模态迁移。
对 AI 研究的启示
1. 跨模态能力迁移的新范式
SpeechCombine 验证了一个大胆的假设:文本 LLM 上积累的能力,可以通过权重算术迁移到其他模态。如果这对语音成立,那对图像、视频、机器人动作也可能成立。
未来可能出现一个标准流程: 1. 在文本上训练一个强 LLM(成本低、数据多) 2. 在目标模态上做最小限度的预训练 3. 用权重算术把文本 LLM 的能力迁移过去
这比在目标模态上从头做 SFT + RLHF 便宜几个数量级。
2. 「数据堆砌」不是唯一道路
当前 SLM 领域的主流思路是「堆数据」——收集更多语音指令数据、做更复杂的训练流程。SpeechCombine 提供了一个反例:有时候更聪明的迁移策略比更多的数据更有效。
论文标题里的「without Instruction Tuning」是一个挑衅——它在说:你们花大力气做的语音指令微调,可能不是必需的。
3. 对「能力是什么」的哲学重构
SpeechCombine 最深层的启示是关于「能力」本身。如果指令遵循能力可以表示为一个权重差 ,并且可以跨模态迁移,那这意味着:
能力不是绑定在某个模态上的,而是一个抽象的、可迁移的向量。
模型不是「学会了语音指令遵循」,而是「拥有了指令遵循这个抽象能力,语音只是它的一个新接口」。这和人类认知有有趣的类比——一个人学会了「按指令行事」这个抽象能力后,无论是用文字、语音还是手势接收指令,都能执行。
诚实评价
SpeechCombine 有几个值得注意的点:
1. 依赖文本 LLM 的质量:如果 本身不强,迁移过去的能力也不强。这个方法的上限被文本 LLM 锁死了
2. LoRA 的选择是经验性的:为什么 rank 64 最好?论文没有给出理论解释
3.
是调出来的:不同模型对可能需要不同的
,缺乏自动确定方法
4. 只测了 QWEN3:其他架构(Llama、Mistral)上是否同样有效需要验证
5. 语音质量:论文主要测了指令遵循能力,语音自然度、情感表达等维度的评估较少
结语
SpeechCombine 让我想起物理学中的一个美学原则:理论之美在于简洁。
当所有人都在往更复杂的方向走——更多数据、更大模型、更精细的训练流程——的时候,有人回过头发现,一行权重加法就能解决你以为需要百万小时数据才能解决的问题。
这不是说复杂的方法没有价值。而是说,在追求复杂之前,应该先问一个更基本的问题:你真的需要那么复杂吗?
语音指令遵循这件事,可能本质上就是一个文本能力,只是恰好需要用语音接口接收输入而已。把文本能力迁移过来,就够了。
有时候,最深的洞察不是「做了什么」,而是「发现不需要做什么」。
—
论文链接:https://arxiv.org/abs/2607.02214 代码仓库:https://github.com/CongruiDu/SpeechCombine
