博客

YAYI 2: Multilingual Open-Source Large Language Models

Summary: As the latest advancements in natural language processing, large language models (LLMs) have achieved human-level language understanding and generation abilities in many real-world tasks, and even have been regarded as a potential path to the artificial general intelligence. To better facilitate research on LLMs, many open-source LLMs, such as Llama 2 and Falcon, have recently been proposed and gained comparable performances to proprietary models. However, these models are primarily designed for English scenarios and exhibit poor performances in Chinese contexts. In this technical report, we propose YAYI 2, including both base and chat models, with 30 billion parameters. YAYI 2 is pre-trained from scratch on a multilingual corpus which contains 2.65 trillion tokens filtered by our pre-training data processing pipeline. The base model is aligned with human values through supervised fine-tuning with millions of instructions and reinforcement learning from human feedback. Extensive experiments on multiple benchmarks, such as MMLU and CMMLU, consistently demonstrate that the proposed YAYI 2 outperforms other similar sized open-source models.

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一种名为YAYI 2的多语言大型语言模型（LLM），旨在解决现有开源LLM在中文环境下表现不佳的问题。YAYI 2包括基础模型和聊天模型，均具有300亿参数。该模型在包含2.65万亿个标记的多语言语料库上从头开始预训练，并通过监督微调和人类反馈强化学习与人类价值观对齐。论文通过在多个基准测试上的广泛实验表明，YAYI 2在知识理解、数学推理和编程等多个方面的表现优于其他相似规模的开源模型。

Q: 有哪些相关研究？

A: 这篇论文中提到的相关研究包括： 1. Llama 2和Falcon：这两个模型是最近提出的开源LLM，性能可与专有模型相媲美，但主要针对英语场景。 2. BLOOM：这是第一个拥有1750亿参数的多语言LLM，基于ROOTS语料库训练。 3. Chat-GLM、Baichuan 2和Qwen：这些是基于中文的LLM，旨在解决开源模型在中文相关场景中的局限性。 4. Chat-GPT和Claude：这些是封闭源代码的代表性LLM产品，主要作为智能个人助手通过聊天界面提供服务。 5. 其他提到的研究还包括用于训练LLM的开源数据集，如RedPajama和RefinedWeb。 6. 还有关于模型架构、训练策略和优化技术的研究，如Transformer架构、RoPE位置编码方法、MQA机制、AdamW优化器等。 7. 论文还涉及到多语言分词器的开发，以及如何通过多语言数据增强模型的理解和分析能力。 8. 最后，论文还提到了关于安全性和道德性的研究，例如通过人类反馈强化学习来使模型输出更符合人类偏好和价值观。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤解决了中文环境下开源大型语言模型表现不佳的问题： 1. **多语言预训练数据集**：收集了一个包含2.65万亿个标记的多语言语料库，其中41.5%是中文数据。这个数据集通过一个严格的预训练数据处理管道进行清洗，以提高数据质量。 2. **模型架构**：YAYI 2模型基于Transformer架构，采用仅解码器的结构，并在自动回归模式下进行训练。模型使用了FlashAttention 2和多查询注意力（MQA）机制来加速训练和推理过程。 3. **对齐人类价值观**：通过监督微调（SFT）与数百万指令输出对以及人类反馈强化学习（RLHF）来调整YAYI 2基础模型，使其更好地支持长指令和多轮对话。 4. **多语言分词器**：开发了一个高质量的多语言分词器，支持包括中文和英文在内的多种语言，以处理不同语言的数据。 5. **长文本和多轮对话处理**：通过扩展上下文窗口，YAYI 2模型增强了处理长文本和多轮对话的能力。 6. **安全性和道德性**：在预训练和微调阶段实施了数据安全协议，确保数据的完整性和合规性，防止模型学习和生成不适当的信息。 7. **评估**：在多个基准测试上评估YAYI 2模型，包括知识理解、数学推理和编程能力，并与其它相似规模的开源模型进行比较，证明了其优越性。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估YAYI 2模型的性能： 1. **知识理解评估**：在多个基准测试上进行评估，包括MMLU（多学科英语知识评估）、C-Eval（中文综合考试评估）、CMMLU（中文知识推理评估）、AGIEval（中英文知识推理评估）和GAOKAO-Bench（中文高考知识推理评估）。 2. **数学和逻辑推理评估**：在GSM8K（数学推理）、MATH（数学问题解决）和BBH（逻辑推理、常识理解和数学）等基准测试上评估模型的数学和逻辑推理能力。 3. **编程能力评估**：使用HumanEval和MBPP（Python编程问题）基准测试来评估模型的编程能力。 4. **与其它模型的比较**：将YAYI 2模型与其它相似规模的开源模型（如MPT-30B、Falcon-40B、LLaMA 2-34B、Baichuan 2-13B、Qwen-14B+72B、InternLM-20B、Aquila 2-34B和Yi-34B）在上述基准测试上进行比较。 5. **长指令和多轮对话支持**：展示了YAYI 2模型在处理长指令、多轮对话和特定领域任务方面的能力。 6. **安全性评估**：在预训练和微调阶段实施了数据安全协议，确保数据的完整性和合规性，防止模型学习和生成不适当的信息。

Q: 有什么可以进一步探索的点？

A: 尽管YAYI 2模型在多个方面取得了显著的性能提升，但仍有一些潜在的研究方向可以进一步探索： 1. **模型泛化能力**：尽管YAYI 2在多个基准测试上表现优异，但在更广泛的、未见过的数据集上测试其泛化能力仍然很重要。 2. **安全性和道德性改进**：持续研究和开发新的技术来减少模型生成有害内容的风险，以及更好地符合道德和法律规定。 3. **计算效率优化**：研究新的算法和硬件加速技术，以提高模型训练和推理的效率，尤其是在大规模集群上。 4. **多语言理解**：尽管YAYI 2在多语言方面取得了进展，但进一步提升模型对低资源语言和方言的理解仍然是一个挑战。 5. **长文本处理**：虽然YAYI 2通过扩展上下文窗口提高了处理长文本的能力，但进一步研究如何更有效地处理超长文档仍然是有意义的。 6. **可解释性和透明度**：提高模型决策过程的可解释性，使用户能够理解模型是如何得出特定输出的。 7. **实时应用和交互**：研究如何将YAYI 2集成到实时应用中，如聊天机器人、虚拟助手和在线客服系统，以及如何提高交互的自然性和流畅性。 8. **模型压缩和蒸馏**：探索模型压缩和蒸馏技术，以创建更小、更高效的YAYI 2版本，便于在资源受限的环境中部署。 9. **跨领域知识融合**：研究如何将YAYI 2与特定领域的知识库和数据源结合起来，以提供更专业和准确的回答。 10. **持续学习**：开发机制使YAYI 2能够持续学习和适应新信息，保持其知识的时效性和准确性。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了YAYI 2，这是一个包含基础模型和聊天模型的多语言大型语言模型（LLM），具有300亿参数。YAYI 2在多语言语料库上从头开始预训练，并通过与人类价值观对齐的微调过程进行优化。论文的主要内容包括： 1. **多语言预训练数据集**：描述了如何收集和处理一个包含2.65万亿标记的多语言数据集，特别强调了中文内容的包含。 2. **模型架构和技术**：阐述了基于Transformer的模型架构，包括RoPE位置编码、MQA注意力机制、AdamW优化器等技术细节。 3. **对齐人类价值观**：通过监督微调和人类反馈强化学习（RLHF）来调整模型，以更好地支持长指令和多轮对话。 4. **安全性和合规性**：在预训练和微调阶段实施数据安全协议，确保数据质量和遵守法规。 5. **评估和比较**：在多个知识理解、数学推理、编程和对话能力基准测试中评估YAYI 2，并与其它类似规模的开源模型进行比较，证明了其优越性。 6. **模型能力和应用**：展示了YAYI 2在处理长文本、多轮对话和特定领域任务方面的能力。 7. **持续开发和反馈**：论文最后强调YAYI 2仍在积极开发中，并欢迎来自研究界和工业界的反馈和建议。

2023 年 12 月 25 日
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为Pangu-Agent的框架，旨在解决如何创建能够在多个任务中表现良好的通用智能体（AI代理）的问题。具体来说，它试图解决以下两个主要问题： 1. 直接将感知映射到动作的独立强化学习（RL）策略在构建时会遇到严重问题，尤其是缺乏跨多个任务的普遍性和需要大量训练数据。 2. 大型语言模型（LLMs）虽然可以作为将跨领域知识整合到AI代理中的基本方式，但缺乏针对特定决策问题的学习和适应能力。 Pangu-Agent框架通过整合和学习结构化推理到AI代理的政策中来解决这些问题。该框架受到人类大脑模块性的启发，利用构建内在和外在功能来添加对推理结构的先前理解。它还提供了适应性能力，可以在每个模块或功能中学习模型，这与认知过程的模块化结构一致。总之，这篇论文提出了一个通用框架，通过整合结构化推理、先前知识和适应性学习来解决创建通用智能体的挑战，使其能够在多个任务中表现良好。

Q: 有哪些相关研究？

A: 这篇论文讨论了几种与Pangu-Agent框架和创建通用智能体相关的现有研究和方法。其中一些最相关的研究包括： * 使用元学习、内在动机、辅助任务、逆强化学习和贝叶斯先验的改进学习，以提高强化学习代理的学习能力和适应性。 * 将大型语言模型（LLMs）整合到代理框架中，例如AutoGen、AutoGPT和AgentVerse，以利用跨领域知识并构建通用智能体。 * 研究LLM代理，不仅使用LLMs作为基础先验，还使用工具和多智能体通信来构建通用智能体。 * 开发模块化和灵活的智能体框架，例如Transformers Agents、LangChain、OpenAgents、XAgent和MetaGPT。 * 提出组合方法，例如SwiftSage、ReAct和Least-to-Most，以增强LLM的推理能力。 * 在代理中实现搜索增强规划，使用BFS、DFS和MCTS等树搜索算法。 * 开发多智能体框架，允许智能体之间的通信和协作，例如CAMEL、AgentVerse和ProAgent。 * 评估和分析LLM代理在各种任务中的表现，例如GSM8K、HotpotQA、ALFWorld、WebShop和BabyAI。总的来说，这篇论文借鉴了广泛的现有研究，涉及强化学习、大型语言模型、多智能体系统和通用智能体开发，以创建一个结合结构化推理、先前知识和适应性学习的通用智能体框架。

Q: 论文如何解决这个问题？

A: 这篇论文通过提出一个名为Pangu-Agent的通用框架来解决创建通用智能体的问题，该框架整合和学习结构化推理到AI代理的政策中。该框架通过以下方式解决提到的挑战： 1. 结构化推理：论文通过假设一组内在函数（µ）来形式化代理的内部思考过程，这些函数作用于和转换代理的内部记忆。这些内在函数的引入可以重新制定典型的RL目标，支持多个“思考”步骤。这使得代理能够以更模块化和灵活的方式进行推理和决策。 2. 内在和外在功能：该框架定义了两组功能 – 内在函数，操作代理的内部记忆状态，和外在函数，与外部环境进行交互。内在函数对于塑造代理的内部状态和决策过程至关重要，而外在函数则直接生成要在环境中执行的动作。 3. 适应性：论文展示了如何通过监督微调和强化学习（RL）微调来微调Pangu-Agent。通过结构化推理，可以有效地从预训练的LLM先验开始收集有价值的奖励轨迹，以启动训练和微调过程。该框架支持全秩和低秩适应算法，以使其更广泛地可用。 4. 模块化设计：Pangu-Agent灵活且模块化，使用户能够轻松地扩展代理的功能并组合或重用许多已经实现的方法。该框架与各种任务和大型语言模型兼容，使其能够适应不同的环境和领域。总之，Pangu-Agent框架通过整合结构化推理、先前知识和适应性学习来解决创建通用智能体的挑战。它受到人类大脑模块性的启发，并提供了一种通用且灵活的代理设计，可以在多个任务中实现更好的性能和适应性。

Q: 论文做了哪些实验？

A: 这篇论文进行了广泛的实验，以评估Pangu-Agent框架及其结构化推理能力。实验涵盖了各种任务、大型语言模型（LLMs）和微调方法。以下是论文中进行的主要实验： 1. 结构化推理能力评估：论文评估了Pangu-Agent中的几种结构化推理方法，包括一阶嵌套（例如直接回答、链式思考提示）和组合方法（例如ReAct、Self-Consistency、SwiftSage、Least-to-Most）。这些评估在七个不同的LLMs（例如GPT-3.5、Llama 2、OpenChat）和六个领域（例如ALFWorld、GSM8K、HotpotQA）上进行。 2. 监督微调（SFT）：论文展示了如何使用Pangu-Agent框架对LLMs进行SFT。通过拒绝重采样管道，显著提高了LLM在ALFWorld域中的表现，将保留任务中的成功率从27%提高到82%。 3. 强化学习微调（RLFT）：论文还评估了RLFT在Pangu-Agent中的效果。通过RL进一步提高了ALFWorld任务中的成功率，从82%提高到88%，在BabyAI任务中从28%提高到91%。这些结果突出了结构化推理在显著推进基于LLM的代理训练方面的潜力。 4. 跨域评估：论文进行了跨域实验，展示了通过RL管道训练的单个LLM能够在ALFWorld（82%）和BabyAI（18个任务的平均58.7%）域中同时实现高性能的能力。这证明了Pangu-Agent框架在将LLMs适应新任务方面的有效性。 5. 规划增强：论文评估了在GSM8K和Game24上使用树搜索算法（BFS、DFS和MCTS）增强规划能力的效果。该框架利用LLM作为策略、模型和价值函数，并与LLM-based模拟环境进行交互，构建rollout树，以更好地使用树搜索算法进行动作/生成。总的来说，论文中进行的实验全面评估了Pangu-Agent框架及其结构化推理能力，展示了其在各种任务和设置中的有效性。这些结果可以帮助研究人员了解如何初始化他们的代理以及如何收集微调步骤的数据。

Q: 有什么可以进一步探索的点？

A: 这篇论文提出了一个有前途的通用智能体框架，但有几个潜在的研究方向可以进一步探索： 1. 全不同性：论文专注于独立优化内在和外在功能。朝着Pangu-Agent框架的全不同性发展，允许在各种内在和外在功能之间传递梯度，可以使系统更加适应。 2. 真实世界的应用：论文在有限数量的单智能体和多智能体任务上评估了Pangu-Agent的性能。将更多样化和复杂的评估任务纳入未来的工作，使Pangu-Agent在真实世界的应用中更加有效，并解决模拟到现实的差距，将是有益的。 3. 记忆检索：当前版本的Pangu-Agent支持长期记忆，存储每个智能体可用的任何信息，例如其观察、思想和行动。在未来，更复杂的记忆检索方法，如允许智能体在其上下文窗口中融入相关记忆的向量数据库中的嵌入相似性，可以被纳入其中，以解决任务。 4. 规划：目前，论文只关注推理任务的规划。在未来，将树搜索算法集成到交互式环境中的基于智能体任务中，并开发和实施高效长期规划的策略，将增强Pangu-Agent的规划能力，使其能够应对现实世界的挑战并适应动态环境。 5. 工具使用：Pangu-Agent未来路线图的一个重要部分是促进与外部工具的集成。Pangu-Agent在其当前配置中包括一个代码解释器，用于执行简单的Python脚本。然而，未来的Pangu-Agent版本将支持与各种外部工具（如Web搜索引擎、计算器（例如Wolfram Alpha）和地图）的兼容性。这种扩展将使Pangu-Agent能够在各种应用中更广泛地部署，并使其能够推广到超出其初始学习分布的任务。 6. 多智能体协作：虽然论文讨论了多智能体设置，但探索更先进的多智能体协作、沟通模式和任务分配策略将是有趣的。 7. 可扩展性和效率：随着大型语言模型的规模不断扩大，优化Pangu-Agent框架的可扩展性和效率，以处理更大的模型和更复杂的任务，将是一个重要的研究方向。 8. 安全性和鲁棒性：确保Pangu-Agent框架产生的智能体是安全可靠的，不能用于有害或不道德的目的，将是需要解决的关键挑战。总之，Pangu-Agent框架为通用智能体的研究提供了一个有前途的基础，但还有许多潜在的研究方向可以进一步探索，以完善框架并将其适应更广泛的真实世界应用。

Q: 总结一下论文的主要内容

A: 这篇论文提出了Pangu-Agent框架，这是一个通用的智能体框架，利用结构化推理来提高强化学习（RL）代理的性能。Pangu-Agent框架的关键点可以总结如下： 1. **目标**：创建能够在多个任务中表现良好的通用智能体，利用大型语言模型（LLMs）作为先验知识，同时解决直接感知到动作的RL策略的局限性。 2. **结构化推理**：引入内在函数来形式化代理的内部思考过程，使代理能够进行多步推理并适应新任务。 3. **内在和外在功能**：框架定义了两组功能 – 内在函数，操作代理的内部记忆状态，和外在函数，与外部环境进行交互。 4. **适应性**：Pangu-Agent可以通过监督微调和强化学习（RL）微调来适应新任务，允许在内在和外在功能上进行微调。 5. **评估**：在各种任务和LLMs上评估了Pangu-Agent，表明结构化推理方法比非结构化方法表现更好。微调进一步提高了代理的性能。 6. **跨域学习**：展示了单个LLM可以通过RL微调在多个域中实现高性能，证明了框架的跨域学习潜力。 7. **未来工作**：讨论了Pangu-Agent的潜在改进，包括全不同性、真实世界应用、记忆检索、规划、工具使用和多智能体协作。总的来说，Pangu-Agent框架通过结构化推理、先前知识和适应性学习来解决创建通用智能体的挑战，使其能够在多个任务中实现更好的性能和适应性。

2023 年 12 月 25 日

博客

YAYI 2: Multilingual Open-Source Large Language Models

Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning