博客

JiuZhang 2.0：面向多任务数学问题求解的统一中文预训练语言模型

摘要：

尽管预训练语言模型 (PLM) 近期推动了数学推理研究的进展，但它们并非专门设计为有能力的多任务求解器，在实际应用中存在多任务部署成本高（例如，为一项任务复制一个模型）和复杂数学问题的性能较差的问题。为了解决这些问题，我们在本文中提出了 JiuZhang 2.0，这是一个专门针对多任务数学问题求解的统一中文 PLM。我们的想法是保持一个中等规模的模型，并采用“跨任务知识共享”来提高模型在多任务设置中的能力。特别地，我们构建了一个混合专家 (MoE) 架构来建模数学文本，以便捕获跨任务的通用数学知识。为了优化 MoE 架构，我们设计了多任务持续预训练和多任务微调策略，以进行多任务适配。这些训练策略能够有效地分解来自任务数据中的知识，并通过专家网络建立跨任务共享。为了进一步提高解决不同复杂任务的泛化能力，我们利用大型语言模型 (LLM) 作为互补模型，通过上下文学习，迭代地优化我们 PLM 生成的解决方案。大量的实验已经证明了我们模型的有效性。

关键词：预训练语言模型，数学推理，多任务学习，混合专家，持续预训练，微调，大型语言模型，上下文学习

正文：

1. 介绍

数学推理是人工智能的一个重要领域，具有广泛的应用，如自然语言处理、机器翻译、信息检索等。近年来，随着预训练语言模型 (PLM) 的发展，数学推理取得了显著的进展。PLM 在大规模数学语料库上进行预训练，能够在一定程度上理解数学公式和逻辑，在各种数学相关任务上取得更好的性能。

然而，基于 PLM 的方法仍然存在两个主要局限性：任务性能有限和维护成本高。一方面，由于 PLM 的容量有限，在复杂数学问题上，其性能往往不佳。另一方面，由于 PLM 需要为每个任务单独训练，这导致了维护成本高的问题。

为了克服这些问题，大型语言模型 (LLM) 被引入解决数学问题。LLM 具有更强的数学推理能力，能够解决更复杂的数学问题。然而，LLM 在任务或领域适应性调整方面非常昂贵。

为了解决上述问题，我们在本文中提出了一种新的方法，旨在开发一个更有效的中文 PLM，能够适应多个复杂数学任务，从而更好地支持数学相关应用。该方法利用现有 LLMs 隐含的大量知识来提高 PLMs 解决复杂问题的能力。在实验中，该方法在一组数学任务上表现出色，甚至优于基于 LLM 的方法。

2. 相关工作

2.1 预训练语言模型的数学推理能力

近年来，PLM 在数学推理方面取得了很大的进步。例如，BERT 在数学推理任务上取得了很好的性能，表明 PLM 能够在一定程度上理解数学公式和逻辑。CodeX 是另一个专门针对数学推理的 PLM，在数学问题求解任务上取得了最先进的性能。

2.2 基于大型语言模型的方法

LLM 具有更强的数学推理能力，能够解决更复杂的数学问题。例如，GPT-3 能够解决高中水平的数学问题，PaLM 能够解决大学水平的数学问题。然而，LLM 在任务或领域适应性调整方面非常昂贵。

2.3 上下文学习

上下文学习可以用于解决不同任务，但仍然难以适应需要丰富领域知识的特定任务。例如，在数学问题求解任务中，上下文学习可以用于学习数学公式和逻辑，但难以学习特定领域的知识。

2.4 混合专家架构

混合专家 (MoE) 架构是一种用于处理大规模任务的模型架构。MoE 架构将模型分解成多个专家网络，每个专家网络处理任务的不同部分。这种分解可以提高模型的容量，并降低模型的训练成本。

2.5 多任务持续预训练和多任务微调策略

多任务持续预训练和多任务微调策略是用于优化 MoE 架构的多任务适应性策略。多任务持续预训练策略是在一个包含多个任务的数据集上对 MoE 架构进行预训练。多任务微调策略是在一个特定任务的数据集上对 MoE 架构进行微调。

2.6 传统 NLP 方法

传统的 NLP 方法，如语义解析器和运算符树，被用于理解数学文本中的公式和逻辑。这些方法通常依赖于特征提取和深度神经网络。

2023 年 12 月 1 日
逐步思考，洞悉世界——语言模型推理的奥秘
大家好，我是资深人工智能专家Halo Master。今天，我将带大家一起探索语言模型推理的奇妙世界。我们将从一篇arxiv论文《Why think step by step? Reasoning emerges from the locality of experience》开始，逐步解析语言模型中推理的本质。

语言模型的推理能力

语言模型，作为人工智能领域冉冉升起的新星，在文本生成、语言翻译、问答系统等领域展现了强大的能力。然而，当我们要求语言模型进行复杂的推理任务时，比如数学问题求解、故事理解等，它们往往会遇到困难。

推理的本质：局部结构与链式推理

那么，为什么推理对语言模型如此重要呢？推理的本质是什么？

在本文中，作者提出了一个假设：推理之所以有用，是因为训练数据具有局部结构。

语言模型的训练数据通常是自然语言文本，而自然语言文本通常是关于几个密切相关的主题的。当概念在经验或训练数据中经常共现时，直接用简单的统计估计量来估计它们之间的影响是很容易的。然而，当我们需要推断一个信息对另一个信息的影响，但却没有将它们一起遇到时，我们就必须进行一系列的推理，在概念对之间跳跃，将我们所知道的与我们想要推断的联系起来。

作者认为，当训练数据具有局部结构时，链式推理就变得非常有用。局部结构是指观察往往发生在相关的概念的局部重叠邻域中。

理论分析：推理如何降低偏差

为了证明这一假设，作者给出了一个理论分析。他们考虑了一个简化的任务，在这个任务中，语言模型在一个链式结构的贝叶斯网络上训练。他们证明，当训练数据具有局部结构时，通过中间变量进行推理可以降低偏差。

实证研究：局部结构与推理的有效性

为了验证这一假设，作者进行了一个实证研究。他们训练了一个语言模型，并在具有不同结构的合成数据上对其进行评估。结果表明，当训练数据具有局部结构时，生成中间变量可以帮助语言模型更准确地估计条件概率。

结论：推理是语言模型的必备能力

综上所述，推理是语言模型的一项必备能力。当训练数据具有局部结构时，推理可以通过减少偏差来提高语言模型的性能。

展望：未来研究方向

在未来的研究中，我们可以从以下几个方面继续探索语言模型的推理能力：
1. 如何设计更有效的推理算法？
2. 如何将推理应用到更广泛的任务中？
3. 如何让人工智能更好地理解和模拟人类的推理过程？
我相信，随着人工智能技术的不断发展，语言模型的推理能力也将越来越强大，并将在越来越多的领域发挥重要作用。

参考文献

[1] Ben Prystawski, Michael Y. Li, Noah D. Goodman. Why think step by step? Reasoning emerges from the locality of experience. arXiv preprint arXiv:2304.03843, 2023.
[2] Using generative AI to imitate human behavior. Microsoft Research Blog. 2023.
[3] Breaking cross-modal boundaries in multimodal AI: Introducing CoDi, composable diffusion for any-to-any generation. Microsoft Research Blog. 2023.
2023 年 12 月 1 日

博客

JiuZhang 2.0：面向多任务数学问题求解的统一中文预训练语言模型

1. 介绍

2. 相关工作

2.1 预训练语言模型的数学推理能力

2.2 基于大型语言模型的方法

2.3 上下文学习

2.4 混合专家架构

2.5 多任务持续预训练和多任务微调策略

2.6 传统 NLP 方法

逐步思考，洞悉世界——语言模型推理的奥秘

语言模型的推理能力

推理的本质：局部结构与链式推理

理论分析：推理如何降低偏差

实证研究：局部结构与推理的有效性

结论：推理是语言模型的必备能力

展望：未来研究方向

参考文献