月度归档： 2024 年 7 月

MetaGPT：自动化的软件开发团队
近年来，大语言模型（LLM）以其强大的自然语言处理能力，在人工智能领域取得了显著进展。这些模型不仅能够生成和理解文本，还能进行复杂的分析和推理。MetaGPT 是一个基于 GPT-4 的 AI Agent 框架，专注于软件开发领域。通过模拟一个完整的软件开发团队，MetaGPT 能够从原始需求出发，完成整个软件开发生命周期的自动化处理。本文将详细解析 MetaGPT 的实现原理、内置任务和技能以及其运行和测试结果。

MetaGPT 简介

MetaGPT 是一种多智能体框架，它利用标准作业程序（SOP）来协调基于大语言模型的多智能体系统，从而实现元编程技术。该框架模拟了一个虚拟软件团队，包括产品经理、架构师、项目经理、工程师和质量工程师等角色，并引入 SOP 成为框架的虚拟软件团队的开发流程。其专注于软件开发，覆盖了从需求分析到代码实现的全生命周期。

MetaGPT 的多智能体系统被视为一个智能体社会，其中包括智能体、环境、标准流程（SOP）、通信和经济等组件。这些组件在系统中各自发挥着重要的作用：
- 智能体：在单个智能体的基础上，扩展了多智能体定义。在多智能体系统中，可以由多个单智能体协同工作，每个智能体都具备独特的 LLM、观察、思考、行动和记忆能力。
- 环境：智能体生存和互动的公共场所。智能体从环境中观察到重要信息，并发布行动的输出结果以供其他智能体使用。
- 标准流程（SOP）：管理智能体行动和交互的既定程序，确保系统内部的有序和高效运作。
- 通信：智能体之间信息交流的过程，对于系统内的协作、谈判和竞争至关重要。
- 经济：多智能体环境中的价值交换系统，决定资源分配和任务优先级。
MetaGPT 的实现原理

MetaGPT 的设计分为两个层次：基础组件层和协作层。

基础组件层

基础组件层以 AI Agent 为核心，提供了观察、思考等能力。其建立了个体智能体操作和在系统范围内进行信息交换所需的核心模块，包括环境、记忆、角色、行动和工具。
- 环境：为智能体提供协作工作空间和交流平台。
- 记忆：存储和检索历史消息。
- 角色：根据领域封装专业技能和工作流程。
- 行动：执行模块化的子任务。
- 工具：提供常见的服务和工具。
基础组件层为智能体在分配的角色中运行提供了基础设施，使它们可以相互交互并与系统交互。

协作层

协作层建立在基础组件层的基础上，协调各个智能体共同解决复杂问题。其提供了两种基本机制：知识共享和封装工作流程。
- 知识共享：该机制允许智能体有效地交换信息，为共享的知识库做出贡献。智能体可以以不同粒度存储、检索和共享数据。这不仅加强了协调能力，还减少了冗余的通信，提高了整体的运行效率。
- 封装工作流程：该机制利用 SOP 将复杂任务分解为较小、可管理的子任务。它将这些子任务分配给适合的智能体，并通过标准化的输出对其进行监控，确保它们的行动与总体目标一致。
在这个框架中，MetaGPT 中的智能体能力得到了显著增强。智能体的实例化，由专门的角色提示引导，被称为”锚定智能体”，为角色提供了观察、思考、反思和知识积累的能力。这些角色通过已建立的订阅和发布方法与环境进行交互。

基础和协作层的分离有利于实现模块化，同时确保智能体的个人和集体能力。基础组件提供了可重用的构建模块和工具，而协作模块则实现了有目的的协调。

MetaGPT 的内置任务和技能

MetaGPT 内置了多种技能，包括分析代码库、设计 API、项目管理、编写代码和测试用例等。这些技能都是以 Python 脚本的形式实现的，每个脚本都定义了相应的 prompt 模板。各个角色可以根据需要引入这些技能来增强自己的能力。

角色定义

MetaGPT 框架支持创建各种专业类的角色，如产品经理、架构师等。基础角色类由一组关键属性定义：名称、简介、目标、约束和描述。
- 目标：表示角色寻求完成的主要责任或目标。
- 约束：表示角色在执行行动时必须遵循的限制或原则。约束可以规定如下：“你编写的代码应符合 PEP8 等代码规范，具有模块化、易于阅读和维护的特点”。
- 描述：提供了额外的具体信息，以帮助建立更全面的角色定义。
MetaGPT 框架提供的全面角色定义使得其可以创建高度专业化的基于 LLM 的智能体，每个智能体都针对特定的领域和目标进行了定制。角色定义不仅引入了基于预期功能的行为指导，而且有助于创建多样化和专业化的智能体，每个智能体都是其领域的专家。
- 思考与反思（Think & Reflect）：角色可以检索角色描述来构建思考，然后通过 _think() 函数来反思需要做什么并决定下一步的行动。
- 观察（Observe）：角色可以观察环境，并根据观察结果使用 _observe() 函数进行思考和行动。它们会关注重要信息，并将其纳入记忆中，以丰富其上下文理解并为未来的决策提供信息。
- 广播消息（Broadcast messages）：角色可以使用 _publish_message() 函数将消息广播到环境中。这些消息包含有关当前执行结果和相关行动记录的详细信息，用于发布和共享信息。
- 知识沉淀与行动（Knowledge precipitation & Act）：角色不仅是广播者，也是环境信息的接收者。角色可以评估传入的消息的相关性和及时性，从共享环境中提取相关知识，并维护一个内部的知识库以支持决策。它们通过咨询 LLM，并利用其具有丰富上下文信息和自我知识的来执行行动。执行结果被封装为消息，而规范性组件则由环境共享。
- 状态管理（State management）：角色可以通过更新工作状态和监控待办事项列表来跟踪它们的行动。这使得角色能够按顺序处理多个行动而不中断。在执行每个行动时，角色首先锁定其状态。完成行动后，将状态标记为解锁。这样可以防止其他行动中断工作流程。
实例化 SOP 的 Prompt

MetaGPT 使用提示（Prompt）将现实世界的标准作业程序（SOP）转化为明确定义的智能体工作流。该过程涉及使用提示来实例化 SOP，并基于已建立的实践提供逐步指导，确保复杂序列任务的一致和结构化执行。

首先，详细介绍 Action 类，然后展示如何设计标准化行动级别细粒度提示。在 MetaGPT 框架中，Action 作为智能体执行特定任务的原子单位，通过自然语言进行指定。关键属性包括：
- 前缀（Prefix）：将角色特定的前缀注入到提示中，以建立角色上下文。使用 set_prefix() 方法配置角色特定提示的标识符。
- LLM 代理（LLM proxy）：每个 Action 包含一个 LLM 代理，可以通过 aask() 方法调用该代理，使用以自然语言提示表达的上下文输入来丰富行动细节。此外，可以在 Action 类中实现各种角色特定上下文解析函数。这些函数旨在从输入中提取并提供足够的上下文信息给 LLM。
- 标准化的输出模式（Standardized outputs schema）：使用结构化表示来定义预期的输出模式，用于提取结构化数据。标准化输出模式定义预期输出模式的结构表示，用于提取结构化数据。
- 重试机制（Retry mechanism）：用于处理行动执行失败的情况。
MetaGPT 的运行和测试结果

MetaGPT 的运行非常简单，只需要运行 startup.py 脚本即可。该脚本支持设置一些参数，如原始需求和投资金额等。在测试中，有人用 10 分钟就完成了一个 Flappy Bird 游戏的开发，这个过程是完全自动化的。不过，最终生成的代码还需要补充一些素材才能直接运行。

在测试过程中，MetaGPT 展现了其强大的自动化处理能力和高效的任务分配机制。通过模拟一个完整的软件开发团队，MetaGPT 可以从需求分析到代码实现的全流程自动化，大大提高了软件开发的效率和质量。

结论

MetaGPT 是一个非常有趣和强大的 AI Agent 框架，它在软件开发领域展现了自动化处理复杂任务的能力。通过模拟一个完整的软件开发团队，MetaGPT 可以从需求分析到代码实现的全流程自动化，大大提高了软件开发的效率和质量。未来，随着大语言模型和人工智能技术的不断发展，MetaGPT 有望在更多领域展现其强大的自动化处理能力，为各行业带来更多创新和变革。

参考文献
2024 年 7 月 14 日
LongRoPE：突破局限，将大模型上下文窗口扩展至200万tokens
在人工智能领域，大模型的快速发展正在深刻地改变着我们的生活。想象一下，未来我们或许可以利用大模型快速扫描整部百科全书、解析复杂的法律条款，甚至精准引用文章内容。然而，现阶段大模型的上下文窗口大小限制了其处理超长文本的能力，阻碍了这些应用场景的实现。

上下文窗口：大模型理解力的瓶颈

大模型的上下文窗口就好比人类的短期记忆，它决定了模型在处理信息时能够参考的范围。传统的预训练大模型通常只有几千个tokens的上下文窗口，例如LLaMA2的最大输入长度为4096个tokens。当输入文本超出这个限制时，模型的性能就会显著下降。

为了解决这个问题，研究人员尝试通过微调技术扩展大模型的上下文窗口。然而，这种方法面临着以下挑战：
- 位置索引的异常值： 扩展上下文窗口会引入大量未经训练的新的token位置索引，导致微调过程难以收敛。
- 长文本数据的缺乏： 微调需要大量的长文本数据，而现有的训练数据集中长文本数量有限。
- 高昂的计算成本： 扩展上下文窗口会导致模型的计算量和内存需求激增，微调过程需要耗费大量的计算资源和时间。
- 注意力分散： 超长上下文窗口会引入过多的位置信息，分散模型的注意力，从而降低其在处理短文本时的性能。
LongRoPE：迈向无限上下文窗口的第一步

为了克服这些挑战，微软亚洲研究院的研究人员提出了LongRoPE技术。LongRoPE首次将预训练大语言模型的上下文窗口扩展到了2048k（约210万）个tokens，并且在保持模型在短文本上性能的同时，显著提升了其处理长文本的效果。

精细化非均匀位置插值：保留关键信息

LongRoPE的核心技术之一是精细化非均匀位置插值。现有的位置插值方法通常采用线性插值的方式，将新的位置索引映射到预训练的范围内。然而，这种方法忽略了RoPE（旋转位置编码）中不同维度和token位置信息的重要性差异。

LongRoPE采用了一种基于进化算法的非均匀插值方法，为RoPE的每个维度和不同的token位置搜索最佳的旋转角度缩放因子。这种方法能够有效地保留原始RoPE位置编码中的关键信息，最大程度地减少了位置插值带来的信息损失。

渐进式扩展策略：高效扩展上下文窗口

在精细化非均匀位置插值的基础上，LongRoPE采用了一种高效的渐进式扩展策略，逐步扩展上下文窗口的大小。
1. 首先，在预训练的大模型上搜索256k上下文窗口对应的最佳位置编码插值方案，并进行微调。
2. 然后，利用LongRoPE的非均匀插值特性，在不进行微调的情况下将上下文窗口扩展8倍，达到2048k。
恢复短上下文窗口性能：兼顾不同长度文本

扩展上下文窗口后，模型在处理短文本时的性能可能会下降。为了解决这个问题，LongRoPE在扩展后的模型上对8k长度内的RoPE缩放因子进行了重新搜索，以减少短文本上的位置插值程度。在推理过程中，模型会根据输入文本的长度动态调整RoPE缩放因子，从而兼顾不同长度文本的处理效果。

LongRoPE的实验结果

研究人员在LLaMA2-7B和Mistral-7B上对LongRoPE进行了测试，实验结果表明：
- 长文本困惑度降低： 在Proof-pile、PG19和Books3等长文本数据集上，LongRoPE显著降低了模型的困惑度，证明其能够更好地理解长文本信息。
- Passkey检索准确率提升： 在Passkey检索任务中，LongRoPE能够在长文本中准确地检索出隐藏的密码，证明其具备处理超长上下文信息的能力。
- 短文本性能保持： 在Huggingface Open LLM benchmark等标准大语言模型基准测试中，LongRoPE在扩展上下文窗口后，依然保持了与原始模型相当甚至更优的性能。
总结与展望

LongRoPE作为迈向无限上下文窗口的第一步，为大模型的发展带来了新的可能性。未来，我们可以利用LongRoPE构建能够处理超长文本的大模型，例如：
- 阅读和理解整本书籍或长篇文档。
- 分析复杂的法律文件或科学论文。
- 生成更连贯、更具逻辑性的长篇文本。
LongRoPE的出现为大模型的应用开辟了更广阔的空间，让我们共同期待未来更加智能的AI应用。

参考文献
- LongRoPE: Extending LLM context window beyond 2 million tokens. https://arxiv.org/pdf/2402.13753.pdf
2024 年 7 月 9 日

月度归档： 2024 年 7 月

MetaGPT：自动化的软件开发团队

MetaGPT 简介

MetaGPT 的实现原理

基础组件层

协作层

MetaGPT 的内置任务和技能

角色定义

实例化 SOP 的 Prompt

MetaGPT 的运行和测试结果

结论

参考文献

LongRoPE：突破局限，将大模型上下文窗口扩展至200万tokens

上下文窗口：大模型理解力的瓶颈

LongRoPE：迈向无限上下文窗口的第一步

精细化非均匀位置插值：保留关键信息

渐进式扩展策略：高效扩展上下文窗口

恢复短上下文窗口性能：兼顾不同长度文本

LongRoPE的实验结果

总结与展望

参考文献