博客

大型语言模型的“技能混合”：优化数据使用，提升模型能力
大型语言模型（LLM）在自然语言处理领域取得了巨大成功，它们能够熟练掌握各种技能，例如写作、推理、聊天、编码等等。为了实现这些能力，LLM 通常需要在来自不同来源的庞大数据集上进行微调。然而，这些数据集往往具有异质性和不平衡性，给微调过程带来了挑战。如何平衡不同技能的开发，同时确保模型的整体性能，成为了一个关键问题。

本文将介绍一种名为“技能混合”（MIXTURE-OF-SKILLS，MOS）的通用、模型无关的强化学习框架，它能够在微调过程中自动优化数据使用。MOS 通过动态调整对不同数据集的关注程度，确保 LLM 能够全面、有效地发展各种技能。

数据使用优化：为什么重要？

在多个数据集上微调模型时，一个常见挑战是处理数据集的异质性和不平衡性。不同数据集可能具有不同的特点，例如数据规模、数据质量、数据类型等等。这些差异会导致模型在微调过程中难以兼顾所有技能的开发。

传统的做法往往限制数据集的使用，以防止模型被大型数据集“淹没”。然而，这种做法限制了所有可用数据的利用。一些研究尝试通过调整数据集的分布来解决这个问题，但这些方法往往需要大量的超参数调整，并且忽略了数据集之间的相互作用以及模型学习的动态变化。

“技能混合”框架：如何优化数据使用？

为了解决上述问题，本文提出了一种名为“技能混合”（MOS）的强化学习框架。MOS 框架的核心思想是训练一个“评分网络”，它能够根据模型当前的学习状态，动态调整对不同数据集的采样概率。

图 1 展示了 MOS 框架的整体流程。模型在多个数据集上进行微调，每个数据集都包含特定的技能信息。评分网络根据模型当前的学习状态，动态调整对不同数据集的采样概率，从而引导模型更有效地学习。

图 1：技能混合框架概述

MOS 框架的优势：
- 通用性： MOS 框架适用于各种 LLM 模型和数据集，无需特定模型或数据集的先验知识。
- 自动优化： MOS 框架能够自动学习最佳数据使用策略，无需人工干预。
- 多角度评估： MOS 框架使用三种不同的奖励机制来评估数据集的价值，包括可迁移性、难度和学习轨迹。
奖励机制：引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值，从而引导模型更有效地学习：

1. 可迁移性： 数据集之间的相似性越高，它们对模型的贡献就越大。MOS 框架使用余弦相似度来衡量数据集之间的相似性，并将其作为奖励机制之一。

2. 难度： 数据集的难度越高，模型需要投入更多的训练努力才能学好。MOS 框架使用困惑度来衡量数据集的难度，并将其作为奖励机制之一。

3. 学习轨迹： 模型在微调过程中，对不同数据集的学习进度会有所不同。MOS 框架使用指数移动平均来追踪模型的学习轨迹，并将其作为奖励机制之一。

实验结果：显著提升模型性能

为了验证 MOS 框架的有效性，本文在两个常用的基准数据集（MMLU 和 MT-bench）上，使用三种不同的 LLM 模型（QWEN1.5-0.5B、GEMMA-2B 和 LLAMA-3-8B）进行了实验。结果表明，MOS 框架能够显著提升模型的整体性能，并且能够加速模型的训练收敛速度。

表 1：不同模型在不同数据集上的性能比较

模型数据集 MOS 框架对照组
QWEN1.5-0.5B MMLU 35.13 32.82
GEMMA-2B MMLU 44.49 41.86
LLAMA-3-8B MMLU 63.85 60.97
QWEN1.5-0.5B MT-bench 22.27 23.40
GEMMA-2B MT-bench 31.56 30.88
LLAMA-3-8B MT-bench 61.54 59.64

未来展望：任务特定微调

除了通用微调之外，MOS 框架还可以应用于任务特定微调。本文提出了一种名为“MOSPEC”的变体，它能够有效地利用各种数据集来完成特定任务。

总结

本文提出了一种名为“技能混合”（MOS）的通用、模型无关的强化学习框架，它能够自动优化数据使用，提升 LLM 的整体性能。MOS 框架通过动态调整对不同数据集的关注程度，确保 LLM 能够全面、有效地发展各种技能。实验结果表明，MOS 框架能够显著提升模型的整体性能，并且能够加速模型的训练收敛速度。

参考文献
- Bai, Y., et al. (2023). Qwen: Towards Open-source, Efficient, and High-performance Large Language Models. arXiv preprint arXiv:2305.16255.
- Colson, B., et al. (2007). Bilevel programming: A survey. Journal of Optimization Theory and Applications, 130(2), 229-252.
- Conneau, A., et al. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 820-830).
- Ding, L., et al. (2023). A Comprehensive Study of Instruction Tuning for Large Language Models. arXiv preprint arXiv:2305.00161.
- Hendrycks, D., et al. (2021a). Measuring Massive Language Models’ Ability to Reason. arXiv preprint arXiv:2108.08404.
- Longpre, S., et al. (2023). In-context Learning and Induction Heads: A Unified Perspective. arXiv preprint arXiv:2305.13091.
- Mesnard, T., et al. (2024). GEMMA: A 2B Parameter Open-Source Language Model. arXiv preprint arXiv:2401.02348.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
- Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
- Sanh, V., et al. (2022). Multitask Prompted Training for Large Language Models. arXiv preprint arXiv:2205.08310.
- Touvron, J., et al. (2023a). LLaMA: Open and Efficient Large Language Models. arXiv preprint arXiv:2302.13971.
- Touvron, J., et al. (2023b). BLOOM: A 176B-parameter Open-access Multilingual Language Model. arXiv preprint arXiv:2211.05100.
- Wang, S., et al. (2020a). Differentiable Data Selection for Efficient Training of Deep Neural Networks. arXiv preprint arXiv:2002.05689.
- Wei, J., et al. (2022). Finetuned Language Models are Zero-Shot Learners. arXiv preprint arXiv:2205.05131.
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4), 229-256.
- Wu, M., et al. (2021). Towards Understanding the Transferability of Knowledge in Multi-task Learning. arXiv preprint arXiv:2106.04803.
- Yue, Y., et al. (2023). Math-Aware Language Models: Towards Reasoning about Mathematical Concepts. arXiv preprint arXiv:2303.11989.
- Yu, H., et al. (2023). Towards Robust and Generalizable Mathematical Reasoning with Large Language Models. arXiv preprint arXiv:2303.17529.
- Zheng, Z., et al. (2023). MT-bench: A Human-Centric Evaluation Benchmark for Multilingual Text Understanding. arXiv preprint arXiv:2303.16166.
2024 年 6 月 17 日
让大型语言模型更会思考：链式偏好优化 (CPO)
大型语言模型（LLM）的最新进展表明，构建推理链对于提高其解决问题的能力至关重要。其中，链式思维 (CoT) 方法通过提示 LLM 生成中间推理步骤（即想法），从而构建显式的推理路径，取得了显著效果。然而，研究表明这些路径并不总是经过深思熟虑的，也并非最优。树状思维 (ToT) 方法采用树搜索来广泛探索推理空间，并找到 CoT 解码可能忽略的更好的推理路径。然而，这种深思熟虑的代价是推理复杂度显著增加。

本文将探讨一种名为链式偏好优化 (CPO) 的新方法，它通过利用 ToT 构建的搜索树来微调 LLM，使得 CoT 能够在不增加推理负担的情况下，实现类似甚至更好的性能。CPO 利用树搜索过程中固有的偏好信息，微调 LLM 使得 CoT 推理路径的每一步都与 ToT 的推理路径保持一致。

1. 为什么要思考？

大型语言模型在处理复杂问题时，往往需要进行多步推理。例如，回答一个多步骤的逻辑推理问题，或者从多个事实中进行推理得出结论。传统的 LLM 往往只关注最终的答案，而忽略了推理过程。这会导致模型在面对复杂问题时，容易出现错误或逻辑混乱。

链式思维 (CoT) 方法试图解决这个问题。它通过提示 LLM 生成一系列中间推理步骤，并将其连接起来形成一个完整的推理路径。例如，在回答一个多步骤的逻辑推理问题时，CoT 会提示 LLM 生成一系列中间推理步骤，例如：

问题： 小明有 5 个苹果，他吃了 2 个，还剩多少个？

CoT 推理路径：
- 步骤 1: 小明吃了 2 个苹果，所以还剩 5 – 2 个苹果。
- 步骤 2: 5 – 2 等于 3。
- 步骤 3: 所以小明还剩 3 个苹果。
CoT 方法使得 LLM 的推理过程更加清晰，也更容易被人类理解。然而，CoT 方法也存在一些问题。例如，它只关注一条推理路径，而忽略了其他可能的推理路径。这会导致模型在遇到复杂问题时，容易陷入局部最优，无法找到最佳的解决方案。

2. 树状思维：更全面的思考

树状思维 (ToT) 方法试图解决 CoT 方法的局限性。它通过在推理过程的每一步生成多个分支想法，并进行自我评估以进行剪枝和规划，从而搜索最佳推理路径。例如，在回答上面的小明苹果问题时，ToT 可能生成以下推理路径：

ToT 推理路径：
- 步骤 1:
  - 想法 1: 小明吃了 2 个苹果，所以还剩 5 – 2 个苹果。
  - 想法 2: 小明还剩 5 – 2 个苹果。
  - 想法 3: 小明还剩 3 个苹果。
- 步骤 2:
  - 想法 1: 5 – 2 等于 3。
  - 想法 2: 5 – 2 等于 4。
- 步骤 3:
  - 想法 1: 所以小明还剩 3 个苹果。
  - 想法 2: 所以小明还剩 4 个苹果。
ToT 方法会对每个想法进行评估，并选择最优的想法继续进行推理。最终，它会找到一条最佳的推理路径，并给出最终的答案。

ToT 方法能够有效地提高 LLM 的推理能力，但它也存在一个问题：推理复杂度过高。由于它需要在每一步生成多个想法并进行评估，因此推理速度会显著降低。

3. 链式偏好优化：兼顾效率和效果

链式偏好优化 (CPO) 方法试图在 ToT 方法的基础上，找到一种平衡效率和效果的方法。它通过利用 ToT 构建的搜索树来微调 LLM，使得 CoT 能够在不增加推理负担的情况下，实现类似甚至更好的性能。

CPO 的核心思想是利用 ToT 搜索过程中固有的偏好信息。ToT 在每一步都会生成多个想法，并根据其评估结果进行剪枝。这意味着 ToT 实际上已经对所有中间想法进行了偏好排序：出现在最佳推理路径中的想法应该比没有出现在最佳推理路径中的想法更受偏好。

CPO 利用这种偏好信息来训练 LLM。它通过将 ToT 中的每个想法标记为“偏好”或“非偏好”，并将其作为训练数据，来训练 LLM 生成与 ToT 偏好一致的推理路径。

4. CPO 的优势

CPO 具有以下优势：
- 提高 LLM 的推理能力： CPO 能够有效地提高 LLM 的推理能力，使其在解决复杂问题时能够找到更好的解决方案。
- 降低推理复杂度： CPO 能够在训练阶段利用 ToT 的偏好信息，从而在推理阶段保持 CoT 的低延迟，避免 ToT 带来过高的推理复杂度。
- 无需额外的人工标注数据： CPO 不需要额外的人工标注数据，仅需利用 ToT 生成的搜索树即可进行训练，这在资源有限的情况下非常有用。
5. 未来展望

CPO 方法为提高 LLM 的推理能力提供了新的思路。未来，我们可以进一步研究以下方向：
- 探索更有效的偏好信息收集方法： 可以研究更有效的偏好信息收集方法，例如利用人类反馈或其他 LLM 的评估结果来收集偏好信息。
- 将 CPO 应用于其他推理任务： 可以将 CPO 应用于其他推理任务，例如代码生成、文本摘要等。
- 研究 CPO 与其他推理方法的结合： 可以研究 CPO 与其他推理方法的结合，例如结合神经网络搜索 (NAS) 来优化 LLM 的推理结构。
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何提高大型语言模型（LLMs）在解决复杂问题时的逻辑推理能力。具体来说，论文关注的是链式推理（Chain-of-Thought，CoT）解码方法，这种方法通过生成显式的逻辑推理路径来帮助LLMs解决问题。然而，研究发现CoT方法并不总是能够找到最优的推理路径，有时会出现非故意和非最优的推理方式。为了解决这个问题，论文提出了一种新的优化方法，称为“链式偏好优化”（Chain of Preference Optimization，CPO），旨在通过利用树状推理（Tree-of-Thought，ToT）方法构建的搜索树中的固有偏好信息，来微调LLMs，使其CoT推理路径与ToT的推理路径对齐，从而提高推理性能，同时避免了ToT方法带来的显著推理复杂性增加。

Q: 有哪些相关研究？

A: 论文中提到了以下几类相关研究：
1. 大型语言模型（LLMs）的推理能力提升：研究表明，当LLMs被提示进行多步推理时，它们的表现会更好。例如，通过后编辑推理路径或访问外部知识来改进生成的推理路径。
2. 非线性推理结构：与CoT方法不同，一些研究将线性推理结构转换为非线性格式，如树或图，并结合深度优先搜索（DFS）等搜索算法。
3. LLMs的自我改进：使用强化学习（RL）技术，通过将LLMs视为RL代理，与人类反馈对齐，以改进模型性能。一些方法使用LLMs自生成数据来增强微调过程。
4. 蒙特卡洛树搜索（MCTS）在LLMs中的应用：MCTS是一种在复杂决策环境中导航的强大算法，已被证明可以增强LLMs的解码过程。
5. 直接偏好优化（DPO）：DPO是一种直接优化LLM以符合偏好数据的方法，例如人类反馈。它将传统的强化学习的奖励建模和微调阶段重新构想为一个单一的优化问题。
6. 链式推理（CoT）和树状推理（ToT）：CoT方法通过生成中间推理步骤来构建显式的推理路径，而ToT方法则通过树搜索来探索多个推理路径，并进行自我评估以寻找最优推理路径。
这些研究为本文提出的链式偏好优化（CPO）方法提供了理论和技术背景。CPO方法借鉴了这些研究的成果，特别是利用ToT方法中的树搜索过程中产生的偏好信息，并通过DPO算法来训练LLMs，以提高其推理能力。

Q: 论文如何解决这个问题？

A: 论文通过提出一种新的优化方法——链式偏好优化（Chain of Preference Optimization, CPO）来解决这个问题。CPO方法的核心思想是利用树状推理（Tree-of-Thought, ToT）过程中产生的固有偏好信息，来指导和优化CoT方法的推理路径。具体来说，CPO方法包括以下几个关键步骤：
1. 生成偏好思想对：在ToT的树搜索过程中，每个推理步骤都会生成多个候选思想，并根据其评估质量进行剪枝。CPO方法将这些候选思想中的优选思想（即最终选择的推理路径中的思想）标记为“偏好思想”，而未被选择的思想则标记为“非偏好思想”。
2. 构建偏好数据：对于每个推理步骤，CPO根据ToT的搜索树结构构建成对的偏好思想数据。这些数据包括偏好思想和相应的非偏好思想，它们形成了用于训练的偏好对。
3. 直接偏好优化（DPO）训练：使用DPO算法，CPO方法训练LLMs以对齐这些偏好对。DPO的目标是最大化偏好响应的概率比，从而使LLMs在推理时能够生成ToT方法所偏好的路径。
4. 避免高推理延迟：与ToT方法在推理时需要进行搜索不同，CPO将计算负担转移到训练阶段，从而在推理时保持CoT的低延迟特性。
5. 实验验证：通过在多个数据集上进行广泛的实验，论文证明了CPO方法在提高LLMs解决复杂问题的性能方面是有效的，尤其是在问答、事实验证和算术推理等任务上。
总的来说，CPO方法通过在训练阶段利用ToT的树搜索过程中的偏好信息，使得LLMs能够在推理时生成更优的推理路径，同时避免了ToT方法在实际应用中面临的高计算复杂性问题。

Q: 论文做了哪些实验？

A: 论文中进行了广泛的实验来验证链式偏好优化（CPO）方法的有效性。实验设置如下：
1. 数据集和评估指标：研究集中在三种类型的推理任务上：问答（QA）、事实验证和算术推理。使用了包括Bamboogle、WikiMultiHopQA、HotpotQA、Fever、Feverous、Vitaminc和SVAMP等七个数据集。评估指标包括准确率和每实例生成答案的平均延迟。
2. 基线模型：为了证明CPO的有效性，论文考虑了以下基线模型：CoT、ToT和TS-SFT。
3. 实验设置：实验基于广泛使用的LLMs，特别是LLaMA27B/13B和Mistral-7B。为了高效的微调，使用了Low-Rank Adaptation (LoRA)适配器。设置了正则化控制器β、生成新思想的数量、剪枝后保留的思想数量等参数。
4. 整体结果：在各种推理任务上，CPO在提高基础LLM的推理能力方面表现出了显著的效果，平均改进达到了4.3%，并且在不牺牲推理速度的情况下与ToT方法相比具有可比性或更优的性能。
5. 组件级评估：分析了选择非偏好思想的不同方法对模型性能的影响，以及训练数据数量对优化的影响。
6. 数据混合敏感性：探索了CPO方法在不同数据设置下的性能，包括单任务数据、统一QA数据和混合类型数据。
7. 迭代学习：探索了CPO是否可以通过对迭代学习进行进一步改进，尝试了两种不同的迭代训练策略：SFT+CPO和CPO only。
8. 效果分析：探讨了非偏好信息对模型性能的影响，以及链级优化的重要性。
这些实验结果表明CPO方法能够有效地提高LLMs在复杂问题解决中的推理能力，并且在效率上具有优势。论文还对实验结果进行了深入分析，以理解CPO方法的工作原理和潜在的改进空间。

Q: 有什么可以进一步探索的点？

A: 论文在最后一部分提出了一些未来工作的方向，以下是可以进一步探索的点：
1. 结合其他推理算法：作者提出将CPO与图状推理（Graph-of-Thoughts）等其他推理算法结合的可能性，以进一步提升LLMs的推理能力。
2. 弱到强模型的对齐：探索使用弱LLM来评估强LLM的可能性，以实现弱到强的对齐（weak-to-strong alignment），这可能有助于提高模型的整体性能。
3. 迭代学习：论文中提到了迭代学习可能带来性能的提升，但同时也注意到了ToT性能的不一致性。未来的工作可以更深入地研究迭代学习策略和模型性能之间的关系。
4. 输出多样性与搜索空间：论文指出，模型经过微调后可能会减少输出的多样性，这可能会影响ToT方法寻找更好推理路径的能力。未来的研究可以探索如何在提高性能的同时保持或增加输出的多样性。
5. 跨模态应用：论文中的方法主要针对文本语言模型，未来的工作可以探索将CPO方法应用于视觉-语言模型或其他跨模态模型。
6. 效率与可扩展性：尽管CPO在提高性能的同时保持了较低的推理延迟，但ToT生成训练数据的过程仍然耗时。研究如何提高CPO方法的效率和可扩展性是一个重要的方向。
7. 伦理和社会影响：论文提到了CPO可能被用于恶意应用的问题，未来的工作需要考虑如何确保技术的安全和伦理使用，以及如何防止潜在的滥用。
8. 更广泛的任务和领域：论文中的实验主要集中在问答、事实验证和算术推理任务上。未来的研究可以在更广泛的任务和领域中测试CPO方法的有效性。
9. 模型解释性：提高模型的可解释性，帮助研究者和用户理解CPO优化过程中模型是如何学习和做出决策的。
10. 鲁棒性和泛化能力：研究CPO方法在不同数据分布、领域和任务中的鲁棒性和泛化能力，确保模型在面对新情况时仍能保持良好性能。
Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以概括为以下几个要点：
1. 问题识别：论文指出大型语言模型（LLMs）在使用链式推理（CoT）解码时，并不总能生成最优的逻辑推理路径，这限制了它们解决复杂问题的能力。
2. 方法提出：为了解决上述问题，论文提出了一种新的优化方法——链式偏好优化（CPO），该方法利用树状推理（ToT）过程中产生的偏好信息来微调LLMs。
3. CPO原理：CPO通过在ToT的树搜索过程中产生的偏好信息，构建每个推理步骤的偏好思想对，然后使用直接偏好优化（DPO）算法来训练LLMs，使其推理路径与ToT中的偏好对齐。
4. 实验验证：论文通过在多个数据集上进行实验，验证了CPO方法在提高LLMs的推理能力方面是有效的。实验结果表明，CPO平均提高了4.3%的准确率，并且在推理延迟上远低于ToT方法。
5. 组件级评估：论文还对CPO的不同组件进行了评估，包括选择非偏好思想的策略、训练数据的数量、数据混合的敏感性等，以深入理解CPO的工作原理和性能影响因素。
6. 未来工作：论文提出了一些未来研究方向，如将CPO与其他推理算法结合、探索弱到强模型的对齐、提高CPO的效率和可扩展性等。
7. 社会影响和局限性：论文讨论了CPO可能带来的社会影响，包括其在安全性和伦理方面的应用潜力，以及当前方法的局限性，如ToT数据生成的耗时问题。
8. 代码开源：论文提供了CPO方法的代码，以便其他研究者复现和进一步研究。
总的来说，这篇论文通过提出CPO方法，为提高LLMs的推理能力提供了一种新的视角，并在理论和实践层面都进行了深入的探讨和验证。
2024 年 6 月 17 日

模型	数据集	MOS 框架	对照组
QWEN1.5-0.5B	MMLU	35.13	32.82
GEMMA-2B	MMLU	44.49	41.86
LLAMA-3-8B	MMLU	63.85	60.97
QWEN1.5-0.5B	MT-bench	22.27	23.40
GEMMA-2B	MT-bench	31.56	30.88
LLAMA-3-8B	MT-bench	61.54	59.64

博客

大型语言模型的“技能混合”：优化数据使用，提升模型能力

数据使用优化：为什么重要？

“技能混合”框架：如何优化数据使用？

奖励机制：引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值，从而引导模型更有效地学习：

实验结果：显著提升模型性能

未来展望：任务特定微调

总结

参考文献

让大型语言模型更会思考：链式偏好优化 (CPO)

1. 为什么要思考？

2. 树状思维：更全面的思考

3. 链式偏好优化：兼顾效率和效果

4. CPO 的优势

5. 未来展望