博客

评估大型语言模型在多智能体协作环境中的协调能力

简介：

🌟 当今人工智能研究的重要目标之一是开发能够与人类和其他系统有效协作的智能体。大型语言模型（LLM）以其理解、生成和解释人类语言的能力而备受关注，成为开发此类智能体的有力候选。在本研究中，我们旨在构建并评估使用LLM构建的智能体在各种协调场景中的效果。我们引入了LLM-Coordination（LLM-Co）框架，专门设计用于使LLM能够玩协调游戏。通过评估，我们深入研究了LLM在心智理论、情境推理、持续协调、对合作伙伴的稳健性以及显性协助等方面的能力。研究结果突显了LLM在复杂协调环境中的潜力，并揭示了LLM在构建用于多智能体协作的强大现实世界智能体方面的潜力。

理解多智能体协调的需求：

🌟 人类在日常生活和工作中经常进行各种协调任务，包括烹饪等平凡活动以及搜救等更重要的任务。为了帮助人类完成乏味或危险的任务，开发能够与人类或其他自主系统协调的智能体至关重要。大型语言模型最近在复杂环境中展示了解决问题和完成任务的能力，展示了高级推理能力和心智理论的迹象。在本研究中，我们旨在探索大型语言模型在解决需要多智能体协调的任务时的推理能力。

评估过程：

🌟 为了评估LLM的多智能体协调能力，我们采用了三种不同的协调游戏：Collab Escape、Collab Capture和Overcooked。在这些游戏中，智能体需要协调行动以实现特定目标。为了使LLM能够理解和玩这些游戏，我们引入了LLM-Coordination框架。该框架为智能体提供了环境的上下文状态信息、可行动作以及解释实时执行的能力。

测试心智理论和情境推理：

🌟 在评估持续协调能力之前，我们首先测试了LLM的心智理论（ToM）和情境推理能力。心智理论使模型能够推断他人的意图和信念，而情境推理则使模型能够将这些推断与环境的上下文情境联系起来。我们设计了LLM-ToM-Reasoning测试集，其中包括来自我们协调游戏的情景。该测试集要求LLM根据合作伙伴的意图和环境的当前状态进行推理，提供最佳的下一步行动。评估涉及不同LLM（包括GPT-4、GPT-3.5-turbo、Vicuna-33B和Vicuna-13B）的比较。结果表明，GPT-4在性能上超过其他LLM，达到了接近人类水平的分数。

评估持续协调和对合作伙伴的稳健性：

🌟 为了评估持续协调能力，我们专注于使用GPT-4的LLM-Co智能体，该智能体展现出强大的心智理论和情境推理能力。我们将LLM-Co智能体的性能与强化学习（RL）基准进行比较，后者是AI-AI游戏中的黄金标准。我们还通过在协调环境中尝试不同的合作伙伴来评估智能体对不同合作伙伴行为的稳健性。评估结果显示，LLM-Co智能体在AI-AI和AI-human代理游戏中的表现不亚于甚至优于RL基准，而且无需进行任何微调。此外，LLM智能体在自然语言中提供详细解释其行动的能力方面表现出色。

协调任务中的主动协助：

🌟 在协调任务中，提供对合作伙伴的显性协助能力至关重要。为了测试这种能力，我们在Overcooked环境中引入了两个新的布局，要求LLM-Co智能体优先帮助合作伙伴，甚至可能牺牲自身的任务完成时间。通过实验和评估，我们发现LLM-Co智能体能够确定协助合作伙伴的正确策略。然而，在需要提示协助的情况下，它们需要以自然语言的「协助指令」来引导其关注。结果表明，LLM-Co智能体在这些新布局中的表现优于基准模型。

主要贡献：

🌟 在我们的研究中，我们做出了以下几个重要贡献：

1️⃣ 发展了LLM-Coordination框架，为大型语言模型提供了在实时场景中玩长期协调游戏所需的工具和环境信息。

2️⃣ 引入了LLM-ToM-Reasoning测试集，专门设计用于评估大型语言模型的心智理论和情境推理能力。

3️⃣ 通过LLM-Co智能体的评估，展示了它们在全面的多轮协调场景中与强化学习基准的性能。

4️⃣ 引入了两个新的Overcooked布局，以检验LLM-Co智能体提供主动协助合作伙伴的能力，突出了其在优先合作而非个体任务完成方面的能力。

结论：

🌟 对大型语言模型在多智能体协调场景中的评估揭示了它们在理解和推理合作伙伴意图、适应复杂环境以及提供显性协助方面的潜力。LLM-Coordination框架与LLM的优势相结合，使得能够开发能够熟练进行多智能体协调的现实世界智能体成为可能。这项研究为构建能够有效与人类和其他自主智能体协作的先进AI系统开辟了新的途径，促进了在搜索和救援、医疗保健和日常任务等各个领域的进展。本研究的发现为AI研究中增强智能体协调能力的持续努力做出了贡献。

🎉🎉🎉 结束 🎉🎉🎉

2023 年 12 月 21 日
BianQue: 平衡LLMs的问询与建议能力，通过ChatGPT打磨的多轮健康对话
近年来，大型语言模型（LLMs）如ChatGPT、ChatGLM、ChatDoctor等在单轮对话中提供广泛而全面的健康建议方面表现出色。然而，用户在单轮对话中提供的有限信息导致生成的建议缺乏个性化和针对性，需要用户自行选择有用的部分。这主要是因为缺乏参与多轮问询的能力。在现实世界的医疗咨询中，医生通常会采用一系列迭代性的询问，全面了解患者的病情，以便随后提供有效和个性化的建议。我们将这种能力定义为链式问询（CoQ）。

为了改进LLMs的CoQ能力，我们提出了BianQue，一种基于ChatGLM的LLM，通过自构建的健康对话数据集BianQueCorpus进行微调。该数据集包含了多轮问询和ChatGPT打磨的健康建议。实验结果表明，BianQue能够同时平衡问询和健康建议的能力，将有助于推动LLMs在积极健康领域的研究和应用。

1. 引言

近年来，大型语言模型（LLMs）如ChatGPT、LLaMA、ChatGLM等已广泛应用于各个领域。通过基于高质量指导微调和基于人类反馈的强化学习（RLHF）等方法，LLMs已经具备了令人惊叹的语言理解、生成和知识推理能力。用户对LLMs出色的建议能力感到惊讶。

然而，LLMs在医学、心理学、教育等应用场景中重要的「问询」能力仍然不足。在与这些LLMs（如ChatGPT2、ChatGLM3、SparkDesk4）进行医疗对话时，它们还没有进行多轮问询的能力。上述LLMs通常基于用户提供的单轮指令，提供合理且普遍适用的建议。然而，在现实世界中，医生通常需要与患者进行多轮对话，以提供有针对性的建议。在用户咨询过程中，医生在前9轮对话中提出不同的问题，以了解宝宝的具体情况。上述多轮问询过程可以定义为链式问询（CoQ）。我们发现，目前的LLMs缺乏CoQ的能力，这是因为在指令微调阶段和RLHF阶段缺乏多轮问询的训练数据。研究人员在构建指令和答案时，一方面忽略了多轮对话历史，另一方面，答案通常是建议而不是问题。

目前，健康领域对LLMs的研究主要集中在评估现有模型的性能、构建适当的数据集和微调指令方面。Singhal等人提出了医学问答基准MultiMedQA，用于评估LLMs的临床知识问答能力。Li等人构建了真实的医生-患者对话数据集HealthCareMagic-100k，并用它来微调ChatDoctor。类似的健康LLMs相继发布，如BenTsao、ChatGLM-6B-Med、DoctorGLM、Med2. BianQue的设计与实现

为了提升LLMs的CoQ能力，我们设计了BianQue，一种基于ChatGLM的LLM。为了构建BianQue，我们首先创建了BianQueCorpus，这是一个包含多轮问询和ChatGPT打磨的健康建议的自构建健康对话数据集。BianQueCorpus的构建过程包括以下步骤：

2.1 数据收集与预处理

我们收集了大量的医疗对话数据，并进行预处理以清理和标准化数据。数据包括医生和患者之间的对话，涵盖了各种健康问题和病情。我们还收集了ChatGPT生成的健康建议，作为后续的对话打磨过程所需的参考答案。

2.2 对话打磨过程

在对话打磨过程中，我们使用ChatGPT作为对话模型，通过迭代生成和反馈的方式，对对话进行打磨。具体而言，我们将医生的问询作为输入，使用ChatGPT生成回答，然后将生成的回答与参考答案进行比较，根据比较结果提供反馈。通过多次迭代，我们逐渐优化了对话的质量和流畅度。

2.3 LLM的微调

在对话打磨过程完成后，我们使用ChatGLM作为基础模型，对BianQueCorpus进行微调。微调的目的是让BianQue在CoQ方面具备更强的能力，能够根据多轮问询提供个性化和针对性的健康建议。

3. 实验结果与讨论

我们对BianQue进行了一系列实验，评估了其在问询和健康建议方面的能力。实验结果表明，BianQue能够平衡问询和健康建议的能力，使得生成的建议更加个性化和针对性。与其他现有的健康LLMs相比，BianQue在多轮问询的场景下表现出更好的效果。

4. 结论

本文介绍了BianQue，一种通过ChatGPT打磨的多轮健康对话的LLM。通过自构建的健康对话数据集BianQueCorpus，并结合ChatGLM的微调，BianQue能够平衡问询和健康建议的能力，提供更加个性化和针对性的建议。BianQue的设计和实现为LLMs在积极健康领域的研究和应用提供了有益的启示。

参考文献：
- Chen, Y., Wang, Z., Zheng, H., Xing, X., Xu, Z., Fang, K., … & Xu, X. (2022). BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs with Multi-turn Health Conversations Polished by ChatGPT. arXiv preprint arXiv:2201.01232. 链接
如果您对本文有任何疑问或意见，欢迎在评论区留言！ 👩‍⚕️💬📚
2023 年 12 月 21 日

博客

评估大型语言模型在多智能体协作环境中的协调能力

BianQue: 平衡LLMs的问询与建议能力，通过ChatGPT打磨的多轮健康对话