分类： AGI

WebCPM: Interactive Web Search for Chinese Long-form Question Answering
长文本问答 (LFQA) 旨在回答复杂的、开放式的问题，并提供详细的、段落长度的回答。LFQA 的实际上的模式需要两个步骤：信息检索，寻找相关的支持事实，信息和合成，将这些信息整合成一个连贯的答案。在本文中，我们介绍了 WebCPM，这是中国的第一个 LFQA 数据集。WebCPM 的一个独特特点是其信息检索基于交互式网页搜索，它在实时与搜索引擎交互。类似于 WebGPT，我们开发了网页搜索界面。我们招募了标注者，使用我们的界面搜索相关信息，然后回答问题。同时，我们记录了标注者的网络搜索行为。我们总共收集了 5500 个高质量的问题 – 答案对，以及 14315 个支持事实和 121330 个网页搜索行为。我们微调了预训练的语言模型，以模仿人类的网络搜索行为，并基于收集的事实生成答案。我们基于这些微调的模型建立了 LFQA 流程，它在这些数据集和 DuReader 上产生了在 32.5% 和 47.5% 的案例中不比人类写的更好的答案。
- 作者通过以下方法取得了结果:
  
  1. 提出长文本问答 (LFQA) 问题，并定义了解决方案所需的两个核心要素：信息检索和信息合成。
  
  2. 使用检索 – 合成范式来解决 LFQA 问题。该范式包含两个核心要素：信息检索和信息合成。信息检索搜索外部知识源 (如互联网) 获取多种相关支持事实，信息合成将收集的事实整合成一个完整的答案。
  
  3. 针对传统 LFQA 范式的缺陷，作者提出了交互式网页搜索的方法，以支持人类进行更复杂的问题分解和解决。人类可以进行交互式网页搜索，通过与搜索引擎实时交互，将复杂的问题分解为多个子问题，并逐步解决。通过识别和浏览相关信息，人类可以加深对话题的理解，并通过提出后续问题或相关术语来微调搜索。这种迭代过程可以扩展搜索范围，并提高搜索结果的质量。
  
  4. 作者还提出了一个公共数据集和框架，以支持 LFQA 交互式网页搜索。该框架包括一个搜索模型和一个合成模型，它们可以模仿人类网页搜索行为进行信息检索和信息合成。作者通过选择最好的搜索和合成模型，将它们组合成一个整体 LFQA 管道，并与人类进行比较。人类评估表明，作者提出的管道在测试集中生成的答案有 32.5% 的时间不比人类差，对于超过 400 个中文字符的 DuReader 问题，作者提出的管道在 47.5% 的情况下生成的答案比 golden 标注的答案更好。
  
  5. 作者还展示了如何使用他们的框架来创建新的中文问题，并使用公共问答论坛作为问题来源。
- 以下是作者在这篇论文中所得出的结论:
  
  1. 交互式网页搜索可以提高 LFQA 解决方案的性能，因为人类可以进行网页搜索并逐步解决问题，而无需从头开始构建问题。
  
  2. 使用 GPT-3 等预训练语言模型进行网页搜索和信息合成的效果比传统的检索 – 合成范式更好，因为它们可以模拟人类搜索行为。
  
  3. 提供可访问的平台和公共基准对于探索 LFQA 交互式网页搜索领域至关重要。
  
  4. 需要进一步研究如何平衡交互式网页搜索和信息合成的性能，以提高 LFQA 解决方案的效率和准确性。
  
  5. 提供可访问的数据集和平台可以促进社区对 LFQA 领域的研究，并为其他研究领域提供测试平台。
2023 年 11 月 22 日
ProAgent: 构建具有主动合作能力的大型语言模型

在人机合作中，构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前，发展合作代理的方法主要依赖于学习方法，其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架，它利用大型语言模型（LLMs）来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色，能够动态适应其行为以提高与队友的协作效果。此外，ProAgent 框架具有高度的模块化和可解释性，便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外，在与人类代理模型合作时，其性能平均改进超过了 10%，比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示，请访问:

https://pku-proagent.github.io

框架的特点包括：

1. 利用大型语言模型（LLMs）：ProAgent 使用 LLMs 来预测队友的未来决策，并据此制定增强的计划。

2. 积极的代理：ProAgent 是一个积极的代理，可以主动适应队友的行为，以提高合作效果。

3. 高度的模块化和可解释性：ProAgent 框架具有高度的模块化和可解释性，可以方便地集成到各种协调场景中。

4. 卓越的性能：实验结果显示，ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时，其性能平均提高了 10% 以上，超过了当前的最佳方法 COLE。

5. 广泛的适用性：ProAgent 的改进在不同的场景中都得到了一致的观察，这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。

6. 可演示性：作者提供了一个在线演示，用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。

1. SayCan：这个方法主要是通过语言模型（LLM）来理解和解析当前任务的知识库，并将原始状态信息转换成语言为基础的状态描述，以便于 LLM 能够有效地理解和处理。在这个过程中，知识库和状态对齐是非常关键的。

2. ReAct：这个方法主要是在不对称优势布局中，通过展示有意不对称的布局，如洋葱、锅和供应点的位置，来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势，从而提高游戏的挑战性和趣味性。

3. DEPS：这个方法主要是通过记忆模块来存储整个流程中涉及到提示、推理过程和验证过程中的所有相关信息。这种积累的知识能够帮助玩家做出更明智的决策，并随着时间的推移调整行为。

4. RAP：这个方法主要是在强制协调布局中，玩家需要通过协作来成功完成汤的配送。但是，这些 ZSC 方法显示出了特定的惯例，如在两个 FCP 代理之间的交互中，他们总是在第一个工作台交换洋葱，在第三个工作台交换菜肴。这种惯例虽然对于自身协作以达到高分非常有效，但是对于与新代理的有效协调却带来了挑战。

5. Reflexion：这个方法主要是通过信念校正和技能验证来进一步验证和校正队友代理的技能信念，同时，所选技能也会被验证器验证，并在找到合法技能之前反复规划。

2023 年 11 月 22 日

分类： AGI

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

ProAgent: 构建具有主动合作能力的大型语言模型