SpeechCombine：不做指令微调，权重相加就能让语音模型听懂人话

> 论文：Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning > 作者：Congrui Du, Ziyang Ma, Yifan Yang, Jian Yang, Xie Chen, Wei-Qiang Zhang > 机构：Tsinghua University, Shanghai Jiao Tong University, Tencent AI Lab > 会议：ICML 2026 > 链接：https://arxiv.org/abs/2607.02214 > 代码：https://github.com/CongruiDu/SpeechCombine

—

一个反直觉的发现

在 LLM 时代，几乎所有能力的获得都遵循一个套路：收集指令数据 → SFT → RLHF → 得到能力。想让它会写代码？喂代码指令数据。想让它会做数学？喂数学指令数据。想让它听懂语音指令？那就喂语音指令数据。

SpeechCombine 论文说：等等，语音指令这件事，可能不需要指令数据。

清华团队发现了一个惊人的事实：把一个文本 LLM 的「指令遵循能力」通过简单的权重算术迁移到语音模型上，不需要任何语音指令数据，不需要 SFT，不需要 RL。一行公式：

$theta_{combined} = theta_{speech} + lambda cdot (theta_{inst} - theta_{base})$

其中 $lambda = 0.85$ 。

就这？就这。但效果炸裂。

背景：语音 LLM 的数据膨胀困境

要理解这个发现为什么重要，得先看语音 LLM 的现状。

训练一个能听懂指令的语音语言模型（Speech Language Model, SLM），标准流程是：

1. 语音预训练：在大量语音数据上做 next-token prediction，让模型学会语音 token 的统计规律 2. 语音指令微调：收集大量「语音指令-语音回答」数据，做 SFT 3. 偏好对齐：用 RLHF 或 DPO 让模型回答更符合人类偏好

第 2 步是最大的瓶颈。问题在于数据膨胀：

一句话「How are you」用文本只有 5 个 token，但用语音 token 可能有几百个。一段 10 秒的语音指令，文本形式可能 20 个 token，语音形式可能 500+ 个 token。这意味着同样信息量的指令数据，语音版本要占用 10-100 倍的训练资源。

更糟的是，语音指令数据本身就稀缺。文本指令数据可以从网页、论坛、问答社区大规模收集，但「语音指令-语音回答」对几乎没有自然来源，只能靠 TTS 合成，质量和多样性都受限。

结果：当前 SLM 的指令遵循能力远落后于文本 LLM。不是算法不行，是数据喂不动。

SpeechCombine 的核心思路：能力是向量，可以加减

SpeechCombine 的灵感来自一个已经被验证过的现象：模型微调后的权重变化（task vector）是可以线性组合的。

具体来说，如果你有一个 base 模型 $theta_{base}$ 和一个经过指令微调的版本 $theta_{inst}$ ，它们的差 $Deltatheta = theta_{inst} - theta_{base}$ 就编码了「指令遵循能力」。这个 $Deltatheta$ 可以加到其他模型上，让它们也获得指令遵循能力。

这个想法在文本模型上已经被验证过（Chat Vector、BILLY、Preference Vector 等工作），但没有人验证过它能否跨模态迁移——从文本 LLM 的 $Deltatheta$ 迁移到语音 LLM。

SpeechCombine 做的就是这件事：

1. 取一个文本 LLM 的 base 版本 $theta_{base}$ 和 instruct 版本 $theta_{inst}$ （论文用 QWEN3-8B） 2. 在 $theta_{base}$ 上做一轮语音预训练（LoRA 微调，rank 64），得到 $theta_{speech}$ ——这个模型只会语音续写，不懂指令 3. 直接相加： $theta_{combined} = theta_{speech} + 0.85 cdot (theta_{inst} - theta_{base})$

没有 SFT，没有 RL，没有任何语音指令数据。语音预训练只用了 30k 小时数据，一轮 next-token prediction 搞定。

效果：打败一众大力出奇迹的对手

SpeechCombine 在多个基准上测试，对手都是用了大量语音指令数据训练的模型：

模型	训练方式	SpeechCombine 对比
GLM-4-Voice	大规模语音指令 SFT	SpeechCombine 更好
Audio-Flamingo	语音指令 SFT + RL	SpeechCombine 更好
Step-Audio2-mini	工业级训练	SpeechCombine 更好
QWEN-2.5-Omni	全模态训练	SpeechCombine 更好
Kimi-Audio	大规模训练	SpeechCombine 大部分更好

一个只用 30k 小时语音数据 + 一行权重加法的模型，打败了一堆用了百万小时数据和复杂训练流程的工业级模型。

为什么这能work？两个关键设计

1. 浅层组合 vs 深层组合

论文区分了两种组合方式：

– 浅层组合（Shallow Combination）：只在 embedding 层和 output 层做权重相加，中间层保持不变 – 深层组合（Deep Combination）：所有层都做权重相加

实验发现，深层组合效果远好于浅层组合。这说明指令遵循能力不是表层技巧，而是分布在模型的所有层中——从底层特征提取到高层决策推理，每一层都参与了「理解指令」这件事。

2. LoRA 的关键作用

语音预训练用的是 LoRA（rank 64），不是全参数微调。这有一个微妙但关键的好处：

LoRA 只更新一小部分参数（低秩矩阵），大部分参数保持和 $theta_{base}$ 一致。这意味着 $theta_{speech}$ 和 $theta_{base}$ 的差异很小，主要集中在语音相关的参数上。当加上 $Deltatheta = theta_{inst} - theta_{base}$ 时，这个差异向量主要影响的是和指令遵循相关的参数，而不是语音处理相关的参数。

如果用全参数微调， $theta_{speech}$ 可能会大幅偏离 $theta_{base}$ ，加上 $Deltatheta$ 后可能会干扰语音处理能力。LoRA 起到了一个「保护壳」的作用。

意外收获：长思维链能力也迁移了

论文报告了一个意外的发现：SpeechCombine 不仅获得了指令遵循能力，还继承了文本 LLM 的长思维链（long-thinking）能力。

QWEN3-8B-instruct 有较强的长链推理能力（能在回答前做长篇思考）。SpeechCombine 加上 $Deltatheta$ 后，在语音任务上也展现出了类似的长思维链行为——模型会在给出最终语音回答前，先做一段较长的内部推理。

这说明 $Deltatheta$ 编码的不只是「指令遵循」，而是文本 LLM 通过 RLHF 获得的整体行为模式，包括推理风格、回答结构、甚至「思考习惯」。

这是一个很强的发现：模型的行为模式可以作为向量跨模态迁移。

对 AI 研究的启示

1. 跨模态能力迁移的新范式

SpeechCombine 验证了一个大胆的假设：文本 LLM 上积累的能力，可以通过权重算术迁移到其他模态。如果这对语音成立，那对图像、视频、机器人动作也可能成立。

未来可能出现一个标准流程： 1. 在文本上训练一个强 LLM（成本低、数据多） 2. 在目标模态上做最小限度的预训练 3. 用权重算术把文本 LLM 的能力迁移过去

这比在目标模态上从头做 SFT + RLHF 便宜几个数量级。

2. 「数据堆砌」不是唯一道路

当前 SLM 领域的主流思路是「堆数据」——收集更多语音指令数据、做更复杂的训练流程。SpeechCombine 提供了一个反例：有时候更聪明的迁移策略比更多的数据更有效。

论文标题里的「without Instruction Tuning」是一个挑衅——它在说：你们花大力气做的语音指令微调，可能不是必需的。

3. 对「能力是什么」的哲学重构

SpeechCombine 最深层的启示是关于「能力」本身。如果指令遵循能力可以表示为一个权重差 $Deltatheta$ ，并且可以跨模态迁移，那这意味着：

能力不是绑定在某个模态上的，而是一个抽象的、可迁移的向量。

模型不是「学会了语音指令遵循」，而是「拥有了指令遵循这个抽象能力，语音只是它的一个新接口」。这和人类认知有有趣的类比——一个人学会了「按指令行事」这个抽象能力后，无论是用文字、语音还是手势接收指令，都能执行。

诚实评价

SpeechCombine 有几个值得注意的点：

1. 依赖文本 LLM 的质量：如果 $theta_{inst}$ 本身不强，迁移过去的能力也不强。这个方法的上限被文本 LLM 锁死了 2. LoRA 的选择是经验性的：为什么 rank 64 最好？论文没有给出理论解释 3. $lambda = 0.85$ 是调出来的：不同模型对可能需要不同的 $lambda$ ，缺乏自动确定方法 4. 只测了 QWEN3：其他架构（Llama、Mistral）上是否同样有效需要验证 5. 语音质量：论文主要测了指令遵循能力，语音自然度、情感表达等维度的评估较少

结语

SpeechCombine 让我想起物理学中的一个美学原则：理论之美在于简洁。

当所有人都在往更复杂的方向走——更多数据、更大模型、更精细的训练流程——的时候，有人回过头发现，一行权重加法就能解决你以为需要百万小时数据才能解决的问题。

这不是说复杂的方法没有价值。而是说，在追求复杂之前，应该先问一个更基本的问题：你真的需要那么复杂吗？

语音指令遵循这件事，可能本质上就是一个文本能力，只是恰好需要用语音接口接收输入而已。把文本能力迁移过来，就够了。

有时候，最深的洞察不是「做了什么」，而是「发现不需要做什么」。

—

论文链接：https://arxiv.org/abs/2607.02214 代码仓库：https://github.com/CongruiDu/SpeechCombine