博客

大型语言模型的低维适应性微调：LaMDA 的高效之道
大型语言模型 (LLM) 在自然语言处理 (NLP) 领域展现出非凡的能力，能够解决各种任务。然而，完全微调 LLM 成本高昂，难以在边缘设备上实现。为了解决这个问题，参数高效微调 (PEFT) 技术应运而生，其中一种名为低秩适应 (LoRA) 的方法备受关注。

LoRA 假设预训练权重的变化存在于低秩空间中，因此在模型的冻结主路径中添加两个可训练的低秩适配器，称为投影矩阵 A (PMA) 和投影矩阵 B (PMB)。这种方法虽然减少了可训练参数数量，但随着模型嵌入维度的增加，LoRA 的可训练参数需求也会增加，导致计算成本高昂。此外，LoRA 的反向更新需要存储高维中间激活和优化器状态，对 GPU 内存峰值提出了很高的要求。

为了解决这些问题，本文介绍了一种名为 LaMDA 的新方法，它利用低维适应来显著减少可训练参数和 GPU 内存峰值。LaMDA 在适应路径中冻结第一个投影矩阵 (PMA)，同时引入一个低维可训练方阵，从而大幅减少可训练参数和 GPU 内存峰值。LaMDA 在早期微调阶段逐渐冻结第二个投影矩阵 (PMB)，进一步降低与权重更新相关的计算成本，提高参数效率。

此外，本文还介绍了 LaMDA 的增强版 LaMDA++，它通过对预训练模型权重的规范化频谱分析，为 LoRA 路径引入了“轻量级”自适应秩分配。

LaMDA：低维适配器的魅力

LaMDA 的核心是低维适配器 (LDA)，它是一个 r 维方阵，其中 r 远小于模型的嵌入维度 d。LaMDA 将 PMA 冻结，而 LDA 始终可训练，PMB 则根据奇异值的相对大小逐渐冻结。这种设计使得可训练参数与 d 无关，并且用于反向传播的激活存储在 r 维空间中，从而显著减少可训练参数、激活和优化器状态内存。

LaMDA 的优势：
- 减少可训练参数： LaMDA 的可训练参数数量仅为 LoRA 的 r2，与模型的嵌入维度 d 无关，有效地限制了参数数量，降低了过拟合风险，提高了模型的泛化能力。
- 降低计算成本： 由于可训练参数数量减少，LaMDA 的反向传播计算量也大幅降低，减少了梯度更新和优化器状态计算，减轻了微调的整体计算和优化器存储开销。
- 节省内存： LaMDA 将激活存储在 r 维空间中，显著减少了激活内存使用，从而可以微调更大的模型或使用更大的批次大小。
LaMDA++：自适应秩分配的优化

LaMDA++ 在 LaMDA 的基础上，引入了自适应秩分配机制，根据预训练模型权重的能量得分，为不同层分配不同的秩。

LaMDA++ 的优势：
- 更有效地利用参数预算： LaMDA++ 通过分析预训练模型权重的能量得分，将更多的秩分配给对秩减少影响较小的层，而将更少的秩分配给对秩减少影响较大的层，从而更有效地利用参数预算。
- 简化实现和使用： LaMDA++ 采用“轻量级”静态分析方法，避免了动态调整秩带来的复杂性和计算开销，简化了实现和使用。
实验结果

本文对 LaMDA 和 LaMDA++ 在自然语言理解 (NLU)、自然语言生成 (NLG) 和推理任务上进行了评估，结果表明：
- NLU 任务： LaMDA 在 GLUE 基准测试中取得了与 LoRA 相当的性能，但可训练参数数量减少了 17.7 倍。LaMDA++ 则取得了最优性能，参数数量略有增加。
- NLG 任务： LaMDA 在 XSUM 和 CNN/DailyMail 数据集上取得了与 LoRA 相当的性能，但可训练参数数量减少了 10 倍。LaMDA++ 在 XSUM 数据集上超越了 LoRA，在 CNN/DailyMail 数据集上与 LoRA 性能相当。
- 推理任务： LaMDA 和 LaMDA++ 在 GSM8K 和 Wikitext-2 数据集上都超越了 LoRA。LaMDA 在 Commonsense170K 数据集上取得了比 LoRA 更高的平均准确率，同时可训练参数数量减少了 11.5 倍。
结论

LaMDA 是一种新颖的 LLM 微调框架，它利用低维适配器，显著减少了可训练参数数量，节省了激活内存，并通过自适应秩分配进一步优化了性能。LaMDA 和 LaMDA++ 能够有效地微调更大的模型，为模型适应提供了一种高效且可扩展的方法。

参考文献
- Hu, Y., et al. (2022). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
- Kopiczko, R., et al. (2024). Vera: Parameter-efficient fine-tuning by projecting to a low-dimensional subspace. arXiv preprint arXiv:2310.17678.
- Pan, X., et al. (2024a). AdaLoRA: Adaptive low-rank adaptation of large language models. arXiv preprint arXiv:2305.11720.
- Liu, Z., et al. (2024). AFLoRA: Adaptive frozen low-rank adaptation for efficient large language model fine-tuning. arXiv preprint arXiv:2310.16125.
- Meng, Z., et al. (2024). On the importance of adapter initialization for parameter-efficient fine-tuning of large language models. arXiv preprint arXiv:2310.17463.
Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了一种名为LaMDA（Large Model Fine-tuning via Spectrally Decomposed Low-Dimensional Adaptation）的新方法，旨在解决大型语言模型（LLMs）微调过程中的两个主要问题：
1. 训练参数需求随着模型嵌入维度的增加而增加：传统的低秩适应（LoRA）方法在微调大型语言模型时，虽然减少了可训练参数的数量，但当模型的嵌入维度增大时，所需的训练参数数量仍然可能很大。
2. 高计算成本和GPU内存占用：LoRA方法在反向更新过程中需要存储高维中间激活和优化器状态，这导致GPU内存需求高，尤其在模型参数过多的情况下，容易造成过度拟合和灾难性遗忘。
为了解决这些问题，LaMDA采用了低维适应技术，通过冻结第一投影矩阵（PMA）并引入一个低维可训练的方阵，显着减少了可训练参数和GPU内存占用。此外，LaMDA在微调的早期阶段逐步冻结第二投影矩阵（PMB），进一步降低与权重更新相关的计算成本，提高参数效率。论文还提出了LaMDA++，一种增强版的方法，通过对方阵进行“轻量级”的自适应秩分配，利用预训练模型权重的归一化谱分析来优化LoRA路径。

总的来说，LaMDA和LaMDA++旨在提供一种更为高效和可扩展的方式来微调大型语言模型，减少所需的训练参数和内存占用，同时保持或提高模型性能。

Q: 有哪些相关研究？

A: 论文中提到了几种与LaMDA相关的研究和技术，主要包括以下几种：
1. LoRA (Low-rank Adaptation) (Hu et al., 2022): 一种流行的微调大型语言模型的方法，通过添加两个可训练的低秩适配器来减少训练参数的数量。
2. VERA (Vector-based Random Matrix Adaptation) (Kopiczko et al., 2024): 一种不同的方法，通过随机初始化和冻结PMA和PMB，专注于微调两个特征转换矢量。
3. AFLoRA (Adaptive Freezing LoRA) (Liu et al., 2024): 为了解决VERA的计算效率问题而提出的方法，但仍然存在高激活存储开销。
4. LISA (Layerwise Importance Sampling for Memory-efficient Fine-tuning) (Pan et al., 2024b): 一种针对内存效率优化的微调方法。
5. AdaLoRA: LoRA的一个变种，通过动态学习适配器的秩来提高微调预算的利用效率。
6. DeBERTa-V3 (He et al., 2023): 用于自然语言理解任务的编码器模型。
7. BART-Large (Lewis et al., 2020): 用于文本摘要和自然语言生成任务的编码器-解码器模型。
8. LLaMA2-7B (Touvron et al., 2023b): 用于复杂推理任务的解码器模型。
9. Transformer-based models (Vaswani et al., 2017): 论文中还讨论了基于Transformer的模型的背景，这些模型通常由多头自注意力（MHSA）子块和前馈网络（FFN）组成。
这些研究和技术为LaMDA提供了理论基础和比较基准，使得LaMDA能够在减少训练参数和降低GPU内存占用方面取得显着进步。

Q: 论文如何解决这个问题？

A: 论文通过提出LaMDA（Large Model Fine-tuning via Spectrally Decomposed Low-Dimensional Adaptation）框架解决了大型语言模型（LLMs）微调过程中遇到的高参数需求和高计算成本问题。以下是LaMDA解决这些问题的关键步骤和方法：
1. 低维适配器（Low-Dimensional Adapter, LDA）：
  - LaMDA引入了一个低维的可训练方阵LDA，该方阵在r维空间中，与模型的嵌入维度d相比，r通常小得多。
2. 冻结投影矩阵（Projection Matrix Freezing）：
  - 在微调过程中，LaMDA冻结了第一投影矩阵（PMA），并只训练LDA，从而显着减少了可训练参数的数量。
3. 逐步冻结第二投影矩阵（Gradual Freezing of the Second Projection Matrix, PMB）：
  - LaMDA在微调的早期阶段逐步冻结PMB，这有助于在保持LaMDA优势的同时提高模型对复杂任务的适应性。
4. LaMDA++（增强版LaMDA）：
  - 利用预训练模型权重的归一化谱分析，为每层的LDA自适应地分配秩，从而实现更优的参数分布。
5. 初始化策略：
  - LaMDA使用奇异值分解（SVD）对预训练权重进行分解，并用对应的奇异矢量初始化PMA和PMB，这有助于在微调开始时近似原始权重。
6. 内存和计算效率：
  - 由于LDA的使用和PMA的冻结，LaMDA在反向传播过程中减少了激活存储的需求，从而降低了GPU内存的使用。
7. 实验验证：
  - 论文通过在多种任务和不同大小的LLMs上进行实验，验证了LaMDA与现有方法相比，在减少参数更新数量和降低GPU内存使用方面的优势。
8. 性能对比：
  - 实验结果显示，LaMDA在保持或提高性能的同时，相比于现有方法，需要更少的参数更新和更低的GPU内存占用。
通过这些方法，LaMDA在减少训练参数、降低内存占用和计算成本方面取得了显着的改进，同时保持了或提高了模型性能。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估LaMDA和LaMDA++方法的性能。以下是实验的主要方面：
1. 模型和数据集：实验涵盖了不同类型的模型，包括编码器（DeBERTa-V3）、编码器-解码器（BART-large）和解码器（LLaMA2-7B）模型。使用了多个数据集，如GLUE基准测试用于自然语言理解（NLU），XSUM和CNN/DailyMail用于文本摘要（NLG），以及GSM8K、Wikitext-2和Commonsense170K用于复杂推理任务。
2. 微调方法比较：LaMDA与全参数微调（Full FT）、LoRA、LoRA-FA、AdaLoRA、VERA、AFLoRA和LISA等现有的参数高效微调（PEFT）技术进行了比较。
3. 性能指标：根据不同任务的性质，使用了不同的性能指标，例如GLUE基准上的准确率、文本摘要任务上的ROUGE分数、复杂推理任务上的准确率以及Wikitext-2上的困惑度（Perplexity）。
4. 可训练参数数量：实验报告了LaMDA和LaMDA++与基线方法相比在减少可训练参数数量方面的效果。
5. GPU内存使用情况：通过在不同批处理大小下对BART-large模型进行微调，测量了不同微调方法在峰值GPU内存使用上的差异。
6. LaMDA++的秩分配策略：通过分析预训练模型权重的归一化能量得分，评估了LaMDA++的自适应秩分配策略的有效性。
7. 初始化选择的影响：研究了不同初始化方法（如使用最大奇异值对应的奇异矢量、随机初始化等）对LaMDA性能的影响。
8. 逐步冻结PMB的迭代次数：研究了在微调过程中逐步冻结PMB的迭代次数对LaMDA性能的影响。
9. LaMDA++排名的影响：评估了LaMDA++根据能量得分对层进行排序并分配秩的策略对训练过程和性能的影响。
10. 常识推理任务：在多个常识推理数据集上评估了LaMDA的性能，包括BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-e、ARC-c和OBQA。
这些实验结果表明，LaMDA和LaMDA++在减少可训练参数数量和降低GPU内存需求的同时，能够与或超越现有方法的性能。

Q: 有什么可以进一步探索的点？

A: 根据论文的讨论和结论部分，以下是一些可以进一步探索的点：
1. 在更大模型上的测试：论文中提到，他们测试的最大模型是LLaMA2-7B。由于时间限制，他们未能在更大的模型上测试LaMDA。未来的工作可以在更大的模型上评估LaMDA的可扩展性和有效性。
2. 在指令遵循任务上的应用：LaMDA尚未在指令遵循任务上进行测试。评估LaMDA在这些特定任务上的性能对于完全理解其潜力和多功能性至关重要。
3. 应用于视觉-语言模型：论文没有探索LaMDA方法在视觉-语言模型上的应用。考虑到多模态学习的重要性，将LaMDA应用于这类模型是一个值得探索的方向。
4. 改进的秩分配策略：尽管LaMDA++采用了基于能量得分的秩分配策略，但可能存在更精细或更动态的秩分配方法，这些方法可以进一步优化模型性能和参数效率。
5. 长期维护和灾难性遗忘问题：在持续微调过程中，研究LaMDA如何处理长期维护问题和灾难性遗忘问题，以及如何改进以减少这些问题的影响。
6. 不同领域的适应性：研究LaMDA在不同领域（如医疗、法律等专业领域）的适应性，以及是否需要针对特定领域进行调整。
7. 与其他微调技术的比较：与其他新兴的微调技术进行比较，以评估LaMDA在不同方面（如速度、内存效率、易用性等）的相对优势和局限性。
8. 模型解释性和可理解性：提高LaMDA微调过程中模型的解释性和可理解性，帮助研究人员和实践者更好地理解模型的决策过程。
9. 跨语言评估：评估LaMDA在不同语言上的微调效果，以及它如何处理语言之间的差异。
10. 环境影响评估：研究LaMDA在减少计算资源需求的同时，对环境影响（如能源消耗和碳足迹）的潜在影响。
这些探索点可以帮助研究者更深入地理解LaMDA的潜力，并推动大型语言模型微调技术的发展。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了LaMDA，一种用于大型语言模型（LLMs）微调的新方法。以下是论文的主要内容总结：
1. 问题识别：论文首先指出了现有微调大型语言模型方法（如LoRA）存在的问题，包括随着模型尺寸增加而增加的参数需求，以及高计算成本和GPU内存占用。
2. LaMDA方法：提出了LaMDA方法，它通过使用低维适配器（LDA）和逐步冻结第二投影矩阵（PMB）来减少可训练参数和GPU内存占用。
3. LaMDA++：介绍了LaMDA的增强版LaMDA++，它通过归一化谱分析自适应地为不同层分配秩，以优化参数分布。
4. 实验设置：论文详细描述了实验的设置，包括使用的不同模型（DeBERTa-V3、BART-large、LLaMA2-7B）和数据集（GLUE、XSUM、CNN/DailyMail、GSM8K、Wikitext-2等）。
5. 性能比较：展示了LaMDA和LaMDA++与现有微调方法（包括Full FT、LoRA、AdaLoRA、VERA、AFLoRA和LISA）的性能比较，证明了LaMDA在减少参数数量和降低GPU内存使用方面的优势。
6. 内存和计算效率：通过实验数据，论文展示了LaMDA在不同批处理大小下对BART-large模型微调时的内存效率。
7. 初始化和秩分配策略：研究了不同的初始化方法和LaMDA++的秩分配策略对性能的影响。
8. 逐步冻结PMB的影响：分析了逐步冻结PMB的迭代次数对LaMDA性能的影响。
9. 常识推理任务：在多个常识推理数据集上评估了LaMDA的性能，并与LoRA进行了比较。
10. 结论和局限性：论文总结了LaMDA的主要贡献，并指出了研究的局限性，如未在更大的模型和指令遵循任务上进行测试，以及未探索在视觉-语言模型上的应用。
11. 未来工作：提出了未来可能的研究方向，包括在更大模型上的测试、指令遵循任务、视觉-语言模型应用等。
论文的代码将在GitHub上公开，以供研究社区使用和进一步研究。
2024 年 6 月 19 日
大型语言模型驱动的智能体：从诞生到社会
近年来，人工智能领域取得了令人瞩目的进展，其中大型语言模型（LLM）的出现被认为是通向通用人工智能（AGI）的关键一步。LLM 拥有强大的语言理解和生成能力，为构建能够感知环境、做出决策并执行行动的智能体提供了坚实的基础。本文将深入探讨 LLM 驱动的智能体，从其构建、应用到社会模拟等方面展开论述。

1. 智能体的诞生：LLM 驱动的智能体构建

LLM 驱动的智能体通常由三个主要部分组成：大脑、感知和行动。

1.1 大脑：以 LLM 为核心

LLM 是智能体的大脑，赋予其强大的语言能力，使其能够理解和生成自然语言。

1.1.1 自然语言交互

LLM 在自然语言交互方面展现出卓越的能力，包括：
- 高质量生成： LLM 可以生成流畅、连贯且富有创意的文本，例如，在 Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond 中，研究者利用 LLM 构建了 PCA-EVAL，一个用于评估基于 LLM 的端到端方法和工具使用方法的基准测试平台。
- 深度理解： LLM 能够理解文本的语义、情感和意图，例如，在 Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models. 中，研究者发现 LLM 在一定程度上具备心智理论能力，但这种能力并不稳健。
1.1.2 知识

LLM 的知识储备是其强大能力的基石，主要来源包括：
- 预训练模型： LLM 通过在海量文本数据上进行预训练，学习了丰富的语言知识，例如，Learning Distributed Representations of Sentences from Unlabelled Data 中提出的词嵌入模型，为 LLM 提供了基础的语言知识。
- 语言知识： LLM 掌握了语言的语法、语义和词汇知识，例如，Probing Pre-trained Language Models for Semantic Attributes and their Values 研究了 LLM 对语义属性和值的理解能力。
- 常识知识： LLM 具备一定程度的常识推理能力，例如，Language Models of Code are Few-Shot Commonsense Learners 发现代码语言模型可以进行少样本常识学习。
- 可操作知识： LLM 可以将知识转化为可执行的行动，例如，Large language models in medicine 讨论了 LLM 在医疗领域的应用，可以帮助医生诊断和治疗疾病。
1.1.3 内存

LLM 的内存能力决定了其记忆和检索信息的能力。
- 内存能力： LLM 的内存能力可以通过以下方法提升：
  - 提高 Transformer 的长度限制： 例如，MemGPT: Towards LLMs as Operating Systems 提出了 MemGPT，一个将 LLM 作为操作系统使用的框架，可以处理更长的文本序列。
  - 记忆摘要： 例如，Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading 通过交互式阅读来扩展 LLM 的上下文长度。
  - 使用向量或数据结构压缩记忆： 例如，ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory 将数据库作为 LLM 的符号记忆，扩展了其记忆能力。
- 记忆检索： LLM 需要能够有效地从记忆中检索相关信息，例如，Memory Sandbox: Transparent and Interactive Memory Management for Conversational Agents 提出了一种透明且交互式的内存管理方法，用于对话智能体。
1.1.4 推理与规划

LLM 的推理和规划能力是其解决复杂问题、制定行动计划的关键。
- 推理： LLM 可以进行逻辑推理和归纳推理，例如，Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning 提出了一种基于反向课程强化学习的 LLM 推理训练方法。
- 规划： LLM 可以根据目标制定行动计划，包括：
  - 计划制定： 例如，Tree of Thoughts: Deliberate Problem Solving with Large Language Models 提出了一种基于树结构的 LLM 规划方法。
  - 计划反思： 例如，Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization 提出了一种基于策略级反思和优化的 LLM 智能体进化方法。
1.1.5 可迁移性和泛化性

LLM 的可迁移性和泛化性决定了其在不同任务和场景下的适应能力。
- 未见任务泛化： LLM 可以将已学知识迁移到新的任务，例如，AgentTuning: Enabling Generalized Agent Abilities for LLMs 提出了一种用于赋予 LLM 泛化能力的训练方法。
- 上下文学习： LLM 可以通过少量示例快速学习新任务，例如，Language Models are Few-Shot Learners 展示了 LLM 的少样本学习能力。
- 持续学习： LLM 可以不断学习新知识，避免遗忘旧知识，例如，Voyager: An Open-Ended Embodied Agent with Large Language Models 展示了 LLM 驱动的终身学习智能体在 Minecraft 中的应用。
1.2 感知：多模态输入

LLM 驱动的智能体可以通过多模态感知，获取更丰富的信息。

1.2.1 视觉

LLM 可以理解和生成图像信息，例如，Images Speak in Images: A Generalist Painter for In-Context Visual Learning 提出了一个用于上下文视觉学习的通用模型 Painter。

1.2.2 音频

LLM 可以理解和生成音频信息，例如，Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 训练了一个神经编解码语言模型 VALL-E，具备上下文学习能力。

1.3 行动：扩展行动空间

LLM 驱动的智能体可以通过工具使用和具身行动，扩展其行动能力。

1.3.1 工具使用

LLM 可以使用外部工具来完成任务，例如，ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs 提出了一种通用的工具使用框架 ToolLLM，可以帮助 LLM 使用各种 API。

1.3.2 具身行动

LLM 可以控制机器人等具身智能体，在物理环境中执行任务，例如，PaLM-E: An Embodied Multimodal Language Model 提出了一种具身多模态语言模型 PaLM-E，可以进行具身行动。

2. 智能体在实践中：LLM 驱动的智能体应用

LLM 驱动的智能体在各个领域展现出巨大的应用潜力。

2.1 单个智能体的通用能力

2.1.1 任务导向部署

LLM 驱动的智能体可以用于完成各种特定任务，例如：
- 网络场景： WebArena: A Realistic Web Environment for Building Autonomous Agents 提供了一个真实的网络环境，用于构建自主智能体。
- 生活场景： InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent 探讨了 ChatGPT 作为合作智能体的潜力。
2.1.2 创新导向部署

LLM 驱动的智能体可以用于推动创新，例如：
- 科学研究： Emergent autonomous scientific research capabilities of large language models 探讨了 LLM 在科学研究中的应用。
- 艺术创作： Generative Agents: Interactive Simulacra of Human Behavior 展示了 LLM 在艺术创作中的应用。
2.1.3 生命周期导向部署

LLM 驱动的智能体可以用于模拟生物的生命周期，例如：
- 游戏场景： Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks 展示了 LLM 驱动的智能体在 Minecraft 中的应用。
- 社会模拟： S³: Social-network Simulation System with Large Language Model-Empowered Agents 提出了一种基于 LLM 的社会网络模拟系统。
2.2 多个智能体的协调潜力

2.2.1 合作交互以实现互补

LLM 驱动的智能体可以协同合作，发挥各自的优势，例如：
- 无序合作： RoCo: Dialectic Multi-Robot Collaboration with Large Language Models 提出了一种基于 LLM 的多机器人协作框架。
- 有序合作： AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework 提出了一种基于多智能体对话的 LLM 应用框架。
2.2.2 对抗交互以实现进步

LLM 驱动的智能体可以通过对抗交互，提升各自的能力，例如：
- 辩论： Improving Factuality and Reasoning in Language Models through Multiagent Debate 展示了 LLM 通过辩论来提升事实性和推理能力。
- 博弈： Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning 展示了 LLM 在外交博弈中的应用。
2.3 人机交互

2.3.1 指导者-执行者模式

LLM 驱动的智能体可以作为人类的助手，执行指令，例如：
- 教育： Math Agents: Computational Infrastructure, Mathematical Embedding, and Genomics 展示了 LLM 在数学教育中的应用。
- 医疗： HuatuoGPT, towards Taming Language Model to Be a Doctor 展示了 LLM 在医疗诊断和治疗中的应用。
2.3.2 平等伙伴模式

LLM 驱动的智能体可以作为人类的伙伴，进行平等的交流和合作，例如：
- 情感交流： SAPIEN: Affective Virtual Agents Powered by Large Language Models 展示了 LLM 在情感交流中的应用。
- 共同参与： Human-level play in the game of Diplomacy by combining language models with strategic reasoning 展示了 LLM 在外交博弈中的应用。
3. 智能体社会：从个体到群体

LLM 驱动的智能体可以形成社会，模拟人类社会的行为和现象。

3.1 LLM 驱动的智能体的行为和个性

3.1.1 社会行为
- 个体行为： Reflexion: Language Agents with Verbal Reinforcement Learning 展示了 LLM 驱动的智能体在学习和决策过程中的个体行为。
- 群体行为： AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents 展示了 LLM 驱动的智能体在群体中的行为模式。
3.1.2 个性
- 认知： Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods 探讨了 LLM 的认知能力。
- 情感： Emotional Intelligence of Large Language Models 探讨了 LLM 的情感智能。
- 性格： Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models 探讨了 LLM 的性格特征。
3.2 智能体社会环境

3.2.1 文本环境

LLM 驱动的智能体可以在文本环境中进行交互，例如，Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models 展示了 LLM 在文本游戏中的应用。

3.2.2 虚拟沙盒环境

LLM 驱动的智能体可以在虚拟沙盒环境中进行模拟，例如，Generative Agents: Interactive Simulacra of Human Behavior 展示了 LLM 在虚拟环境中的应用。

3.2.3 物理环境

LLM 驱动的智能体可以控制机器人等具身智能体，在物理环境中进行交互，例如，RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking 展示了 LLM 在机器人控制中的应用。

3.3 基于 LLM 的智能体社会模拟

LLM 驱动的智能体可以用于模拟人类社会，例如：
- 社会规范的出现： Emergence of Social Norms in Large Language Model-based Agent Societies 研究了 LLM 驱动的智能体社会中社会规范的形成。
- 社会现象的模拟： Epidemic Modeling with Generative Agents 展示了 LLM 驱动的智能体在流行病模拟中的应用。
4. 未来展望：机遇与挑战并存

LLM 驱动的智能体正处于快速发展阶段，其强大的语言能力、知识储备、推理规划能力以及可迁移性和泛化性，使其在各种领域展现出巨大潜力。然而，我们也必须清醒地认识到，这项技术的发展并非一帆风顺，还面临着许多挑战和风险。

4.1 互相促进：LLM 与智能体研究的双向赋能

LLM 研究为智能体研究提供了强大的基础模型，例如，LLM 可以帮助智能体进行决策、规划和行动，并有效地处理未见任务。另一方面，智能体研究也为 LLM 研究提出了新的挑战和方向，例如，如何让 LLM 更好地理解环境、学习新的技能以及进行更有效的社会交互。

4.2 评价体系：多维评估，确保智能体安全可靠

评估 LLM 驱动的智能体是一个复杂的过程，需要考虑多个维度：
- 效用： 评估智能体完成任务的效率和成功率，例如，AgentBench: Evaluating LLMs as Agents 提供了一个用于评估 LLM 作为智能体的能力的基准测试框架。
- 社会性： 评估智能体与人类和其他智能体的交互能力，例如，ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate 提出了一种基于多智能体辩论的 LLM 评估方法。
- 价值观： 评估智能体的道德和伦理水平，确保其行为符合人类社会价值观，例如，Constitutional AI: harmlessness from AI feedback 提出了一种基于 AI 反馈的无害性训练方法。
- 持续进化： 评估智能体不断学习和适应的能力，例如，Voyager: An Open-Ended Embodied Agent with Large Language Models 展示了 LLM 驱动的终身学习智能体在 Minecraft 中的应用。
4.3 安全与信任：防范风险，构建可信赖的智能体

LLM 驱动的智能体在应用过程中存在着许多潜在风险，例如：
- 对抗性攻击： LLM 容易受到对抗性攻击，例如，PromptAttack: Prompt-based Attack for Language Models via Gradient Search 提出了一种基于提示的 LLM 攻击方法。
- 可信度问题： LLM 可能存在幻觉问题，例如，Self-Contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation 探讨了 LLM 的自我矛盾幻觉问题。
- 其他风险： LLM 驱动的智能体可能被恶意利用，例如，The malicious use of artificial intelligence: Forecasting, prevention, and mitigation 讨论了人工智能的恶意使用问题。
为了降低风险，我们需要采取措施，例如：
- 增强鲁棒性： 通过对抗性训练等方法，提升 LLM 的鲁棒性。
- 提高可信度： 通过思维链等方法，增强 LLM 的可解释性和可信度。
- 规范使用： 制定相关政策和标准，规范 LLM 驱动的智能体的使用。
4.4 规模化：构建更复杂、更真实的智能体社会

随着智能体数量的增加，我们可以构建更复杂、更真实的智能体社会，例如：
- 提高任务效率： 例如，AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework 展示了 LLM 驱动的智能体在多智能体协作中的应用。
- 增强社会模拟： 例如，S³: Social-network Simulation System with Large Language Model-Empowered Agents 提出了一种基于 LLM 的社会网络模拟系统。
然而，规模化也带来了新的挑战，例如：
- 计算负担： 智能体数量的增加会带来巨大的计算负担。
- 协调难度： 协调大量智能体进行有效的合作和交流会非常困难。
- 信息失真： 智能体数量的增加可能导致信息失真和传播问题。
4.5 开放问题：探索未知，展望未来

LLM 驱动的智能体领域还有许多开放问题需要进一步研究，例如：
- 通向 AGI 的道路： LLM 驱动的智能体是否能成为通向 AGI 的道路？
- 从虚拟到现实： 如何将 LLM 驱动的智能体从虚拟环境迁移到真实的物理环境？
- 群体智能： 如何利用 LLM 驱动的智能体社会来探索群体智能的奥秘？
- 代理即服务： 如何将 LLM 驱动的智能体作为服务提供给用户？
5. 结语

LLM 驱动的智能体正在改变着我们对人工智能的理解，也为我们带来了前所未有的机遇和挑战。未来，我们期待着 LLM 驱动的智能体能够在更多领域发挥作用，为人类社会带来更大的福祉。

参考文献

[1] The Rise and Potential of Large Language Model Based Agents: A Survey. Zhiheng Xi et al. (2023). https://arxiv.org/abs/2309.07864

[2] LLM-Agent-Paper-List. https://github.com/WooooDyy/LLM-Agent-Paper-List

致谢

感谢复旦大学自然语言处理团队（FudanNLP）的辛勤付出，为我们带来了这篇精彩的综述论文。
2024 年 6 月 19 日

博客

大型语言模型的低维适应性微调：LaMDA 的高效之道

LaMDA：低维适配器的魅力

LaMDA++：自适应秩分配的优化

实验结果

结论

参考文献

大型语言模型驱动的智能体：从诞生到社会

1. 智能体的诞生：LLM 驱动的智能体构建

1.1 大脑：以 LLM 为核心

1.1.1 自然语言交互

1.1.2 知识

1.1.3 内存

1.1.4 推理与规划

1.1.5 可迁移性和泛化性

1.2 感知：多模态输入

1.2.1 视觉

1.2.2 音频

1.3 行动：扩展行动空间

1.3.1 工具使用

1.3.2 具身行动

2. 智能体在实践中：LLM 驱动的智能体应用

2.1 单个智能体的通用能力

2.1.1 任务导向部署

2.1.2 创新导向部署

2.1.3 生命周期导向部署

2.2 多个智能体的协调潜力

2.2.1 合作交互以实现互补

2.2.2 对抗交互以实现进步

2.3 人机交互

2.3.1 指导者-执行者模式

2.3.2 平等伙伴模式

3. 智能体社会：从个体到群体

3.1 LLM 驱动的智能体的行为和个性

3.1.1 社会行为

3.1.2 个性

3.2 智能体社会环境

3.2.1 文本环境

3.2.2 虚拟沙盒环境

3.2.3 物理环境

3.3 基于 LLM 的智能体社会模拟

4. 未来展望：机遇与挑战并存