分类：未分类

日本战国时代：剑起纷争的百年风云

日本历史上的战国时代，被誉为一个充满战乱和政治纷争的重要时期。它一般被界定为从1467年应仁之乱开始，持续了长达120多年的时期。这段时间内，日本政局动荡不安，各大名相互争斗，形成了群雄割据的局面。直到1590年的小田原之战中，关白丰臣秀吉消灭北条家，日本才得以实现全国统一，安土桃山时代和平时期拉开了序幕。

战国时代的起始点可以追溯到1467年的应仁之乱，这场战争被视为战国时代的开端。室町幕府在第三代将军足利义满之后陷入了内乱。政治上，幕府与关东的古河公方进行对抗，各地的政治谋杀、大名的反抗和私战也破坏了政治平衡；社会上，各地的暴动如同定时炸弹一样，给整个社会秩序带来了不同程度的冲击。然而，室町幕府从未放弃稳定全国局势的努力，直到1441年，一场意外引发了全国性的混战，使幕府的努力付诸东流。

在应仁之乱之后，幕府的威信受到重创，各地的守护大名们面临着国人的反抗和一揆的崛起。有些大名被本国国人发动的一揆所取代，有些被守护代所接替，甚至有些被宗教性暴动推翻。下克上的现象在整个战国时代普遍存在，辅佐守护的守护代、各地土豪甚至平民纷纷崛起成为大名，各地大名称霸一方，成为掌控天下的人物。同时，日本与欧洲人之间的贸易交流正式展开，基督教和火枪的引进改变了社会和战争的形态。农奴地主关系受到破坏，封建制度逐渐岌岌可危。

明应之变是关东地区的大乱。原本将幕府设在京都的镰仓公方被北条氏取代，形成了两大势力。后北条氏成为东国最强大的大名，而毛利元就在中国地区崛起，成为新力量的代表。在战国时代，以织田信长和武田信玄为代表的大名崛起，展开了一系列征战。织田信长最终掌握了中部地区，建立了织田政权，而丰臣秀吉在织田信长之后崛起，实现了日本的全国统一，并建立了丰臣政权。

丰臣秀吉在安土桃山时代成为一代霸主。他通过一系列征伐，统一了全国大名，实施了一系列重要政策，如太阁检地、兵农分离和惣无事令，为后来的江户幕府的发展提供的文本如下：

日本战国时代：剑起纷争的百年风云

战国时代是日本历史上一个动荡而重要的时期，从1467年的应仁之乱开始，持续了长达120多年的时间。这段时期充满了政治纷争和战乱，各个领主争夺权力，形成了群雄割据的局面。最终，在1590年的小田原之战中，关白丰臣秀吉消灭了北条家，日本实现了全国统一，开启了安土桃山时代的和平时期。

日本战国时代的起点可以追溯到1467年的应仁之乱。这场战争标志着幕府政权的衰落，各个大名之间爆发了政治斗争和战争。在政治上，除了与幕府对抗的关东古河公方外，各地的政治谋杀和大名们的反抗破坏了政治平衡。在社会上，一系列的一揆（暴动）如同定时炸弹，给整个社会秩序带来了不同程度的冲击。然而，幕府从未放弃稳定全国局势的决心和努力，直到1441年一场全国性的混战使他们的努力付诸东流。

在应仁之乱之后，幕府的威信大幅下降，各地的守护大名面临着国人的反抗和一揆的崛起。有些大名被本国国人发动的一揆所取代，有些则被守护代所接替，甚至有些被宗教性的一揆推翻。下克上的风气弥漫在整个战国时代，辅佐守护的守护代、各地土豪甚至平民崛起成为大名。各地大名争夺权力，一些成为掌控天下的天下人。同时，日本与欧洲人之间的贸易交流正式展开，基督教和火枪的引进改变了社会和战争的形态。到了战国时代的中后期，过往封建制度下的农奴地主关系也逐渐遭到破坏。

明应之变是关东地方的一次大乱。幕府将军足利义材对德川家康违反私战禁令的行为表示不满，以此为借口发动了讨伐行动。然而，德川家康利用军事手段和外交手段成功击败了义材，确立了自己的权力。织田信长和武田信玄等大名也崛起并展开了一系列征战。织田信长最终控制了中部地区，建立了织田政权。丰臣秀吉在织田信长之后崛起，实现了日本的全国统一，并建立了丰臣政权。

丰臣秀吉成为丰臣政权的领袖，通过一系列的征伐和政策，实现了对全国的统一。他在安土桃山时代成为一代霸主。然而，他在1598年去世后，日本陷入了动荡的局势。丰臣秀吉去世后，他的幼子丰臣秀赖继承了丰臣家的家督，但全国各地的大名们对丰臣氏的统治表达了越来越多的不满。丰臣氏的财力逐渐增强，显示出重振旗鼓的迹象，而丰臣家与德川家康紧密的联姻关系也开始面临动摇。德川家康作为五大老之首，决定斩草除根。

在庆长4年（1599年），四位大老中最具影响力的前田利家去世，丰臣家臣与德川家康的关系迅速恶化。庆长4年（1600年），德川家康以石田三成为首的五奉行违反私战禁令的行为为借口，发动会津征伐，进攻上杉景胜。石田三成认为德川家康违反了条约，召集各地大名在大坂城发表《内府违反条文》的声明，随即起兵讨伐德川氏。

庆长5年（1600年），东军以德川家康为领导，西军以石田三成为实质领导（名义上的统帅为毛利辉元），在关原进行了决定性的战斗。战斗初期，西军凭借石田三成的指挥，占据了优势，使德川家康的东军陷入被动。然而，在战斗进行到中午时，家康下令向事先已收买的西军大将小早川秀秋开火，迫使他与吉川广家等人倒戈，直逼西军主力。战局急转直下，西军从稍占优势转为完全溃败。战斗结束时，东军取得了胜利。

几天后，石田三成被捕，与小西行长以及安国寺惠琼等三人作为首要战犯被处决。德川家康完全消灭了丰臣氏的势力，关原之战成为丰臣氏的最后一战。

庆长8年（1603年），德川家康受到后阳成天皇的诏封，成为征夷大将军，江户幕府正式成立。这标志着日本进入了江户时代，为接下来的几个世纪奠定了基础。

总的来说，日本战国时代是日本历史上一个充满战争和政治纷争的重要时期。在这段时间里，各大名势力崛起，展开了激烈的争斗，最终由德川家康统一了日本，建立了长达几个世纪的幕府政权。战国时代的结束标志着日本历史的转折点，为日本社会带来了巨大的变革，并对日本历史的发展产生了深远的影响。

2024 年 6 月 17 日
大型语言模型的“技能混合”：优化数据使用，提升模型能力
大型语言模型（LLM）在自然语言处理领域取得了巨大成功，它们能够熟练掌握各种技能，例如写作、推理、聊天、编码等等。为了实现这些能力，LLM 通常需要在来自不同来源的庞大数据集上进行微调。然而，这些数据集往往具有异质性和不平衡性，给微调过程带来了挑战。如何平衡不同技能的开发，同时确保模型的整体性能，成为了一个关键问题。

本文将介绍一种名为“技能混合”（MIXTURE-OF-SKILLS，MOS）的通用、模型无关的强化学习框架，它能够在微调过程中自动优化数据使用。MOS 通过动态调整对不同数据集的关注程度，确保 LLM 能够全面、有效地发展各种技能。

数据使用优化：为什么重要？

在多个数据集上微调模型时，一个常见挑战是处理数据集的异质性和不平衡性。不同数据集可能具有不同的特点，例如数据规模、数据质量、数据类型等等。这些差异会导致模型在微调过程中难以兼顾所有技能的开发。

传统的做法往往限制数据集的使用，以防止模型被大型数据集“淹没”。然而，这种做法限制了所有可用数据的利用。一些研究尝试通过调整数据集的分布来解决这个问题，但这些方法往往需要大量的超参数调整，并且忽略了数据集之间的相互作用以及模型学习的动态变化。

“技能混合”框架：如何优化数据使用？

为了解决上述问题，本文提出了一种名为“技能混合”（MOS）的强化学习框架。MOS 框架的核心思想是训练一个“评分网络”，它能够根据模型当前的学习状态，动态调整对不同数据集的采样概率。

图 1 展示了 MOS 框架的整体流程。模型在多个数据集上进行微调，每个数据集都包含特定的技能信息。评分网络根据模型当前的学习状态，动态调整对不同数据集的采样概率，从而引导模型更有效地学习。

图 1：技能混合框架概述

MOS 框架的优势：
- 通用性： MOS 框架适用于各种 LLM 模型和数据集，无需特定模型或数据集的先验知识。
- 自动优化： MOS 框架能够自动学习最佳数据使用策略，无需人工干预。
- 多角度评估： MOS 框架使用三种不同的奖励机制来评估数据集的价值，包括可迁移性、难度和学习轨迹。
奖励机制：引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值，从而引导模型更有效地学习：

1. 可迁移性： 数据集之间的相似性越高，它们对模型的贡献就越大。MOS 框架使用余弦相似度来衡量数据集之间的相似性，并将其作为奖励机制之一。

2. 难度： 数据集的难度越高，模型需要投入更多的训练努力才能学好。MOS 框架使用困惑度来衡量数据集的难度，并将其作为奖励机制之一。

3. 学习轨迹： 模型在微调过程中，对不同数据集的学习进度会有所不同。MOS 框架使用指数移动平均来追踪模型的学习轨迹，并将其作为奖励机制之一。

实验结果：显著提升模型性能

为了验证 MOS 框架的有效性，本文在两个常用的基准数据集（MMLU 和 MT-bench）上，使用三种不同的 LLM 模型（QWEN1.5-0.5B、GEMMA-2B 和 LLAMA-3-8B）进行了实验。结果表明，MOS 框架能够显著提升模型的整体性能，并且能够加速模型的训练收敛速度。

表 1：不同模型在不同数据集上的性能比较

模型数据集 MOS 框架对照组
QWEN1.5-0.5B MMLU 35.13 32.82
GEMMA-2B MMLU 44.49 41.86
LLAMA-3-8B MMLU 63.85 60.97
QWEN1.5-0.5B MT-bench 22.27 23.40
GEMMA-2B MT-bench 31.56 30.88
LLAMA-3-8B MT-bench 61.54 59.64

未来展望：任务特定微调

除了通用微调之外，MOS 框架还可以应用于任务特定微调。本文提出了一种名为“MOSPEC”的变体，它能够有效地利用各种数据集来完成特定任务。

总结

本文提出了一种名为“技能混合”（MOS）的通用、模型无关的强化学习框架，它能够自动优化数据使用，提升 LLM 的整体性能。MOS 框架通过动态调整对不同数据集的关注程度，确保 LLM 能够全面、有效地发展各种技能。实验结果表明，MOS 框架能够显著提升模型的整体性能，并且能够加速模型的训练收敛速度。

参考文献
- Bai, Y., et al. (2023). Qwen: Towards Open-source, Efficient, and High-performance Large Language Models. arXiv preprint arXiv:2305.16255.
- Colson, B., et al. (2007). Bilevel programming: A survey. Journal of Optimization Theory and Applications, 130(2), 229-252.
- Conneau, A., et al. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 820-830).
- Ding, L., et al. (2023). A Comprehensive Study of Instruction Tuning for Large Language Models. arXiv preprint arXiv:2305.00161.
- Hendrycks, D., et al. (2021a). Measuring Massive Language Models’ Ability to Reason. arXiv preprint arXiv:2108.08404.
- Longpre, S., et al. (2023). In-context Learning and Induction Heads: A Unified Perspective. arXiv preprint arXiv:2305.13091.
- Mesnard, T., et al. (2024). GEMMA: A 2B Parameter Open-Source Language Model. arXiv preprint arXiv:2401.02348.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
- Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
- Sanh, V., et al. (2022). Multitask Prompted Training for Large Language Models. arXiv preprint arXiv:2205.08310.
- Touvron, J., et al. (2023a). LLaMA: Open and Efficient Large Language Models. arXiv preprint arXiv:2302.13971.
- Touvron, J., et al. (2023b). BLOOM: A 176B-parameter Open-access Multilingual Language Model. arXiv preprint arXiv:2211.05100.
- Wang, S., et al. (2020a). Differentiable Data Selection for Efficient Training of Deep Neural Networks. arXiv preprint arXiv:2002.05689.
- Wei, J., et al. (2022). Finetuned Language Models are Zero-Shot Learners. arXiv preprint arXiv:2205.05131.
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4), 229-256.
- Wu, M., et al. (2021). Towards Understanding the Transferability of Knowledge in Multi-task Learning. arXiv preprint arXiv:2106.04803.
- Yue, Y., et al. (2023). Math-Aware Language Models: Towards Reasoning about Mathematical Concepts. arXiv preprint arXiv:2303.11989.
- Yu, H., et al. (2023). Towards Robust and Generalizable Mathematical Reasoning with Large Language Models. arXiv preprint arXiv:2303.17529.
- Zheng, Z., et al. (2023). MT-bench: A Human-Centric Evaluation Benchmark for Multilingual Text Understanding. arXiv preprint arXiv:2303.16166.
2024 年 6 月 17 日

模型	数据集	MOS 框架	对照组
QWEN1.5-0.5B	MMLU	35.13	32.82
GEMMA-2B	MMLU	44.49	41.86
LLAMA-3-8B	MMLU	63.85	60.97
QWEN1.5-0.5B	MT-bench	22.27	23.40
GEMMA-2B	MT-bench	31.56	30.88
LLAMA-3-8B	MT-bench	61.54	59.64

分类： 未分类

日本战国时代：剑起纷争的百年风云

大型语言模型的“技能混合”：优化数据使用，提升模型能力

数据使用优化：为什么重要？

“技能混合”框架：如何优化数据使用？

奖励机制：引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值，从而引导模型更有效地学习：

实验结果：显著提升模型性能

未来展望：任务特定微调

总结

参考文献

分类：未分类