标签： AGI

自我博弈：强化学习中的全新视角 🔍
自我博弈（Self-play）作为一种独特的强化学习方法，近年来在智能体与环境的互动中展现出了非凡的潜力。这种方法不仅可以帮助智能体优化其决策过程，还能有效应对多智能体系统中的复杂动态。因此，本文将深入探讨自我博弈的基本概念、算法框架以及其在不同应用场景中的实际表现。

自我博弈的理论基础 📚

自我博弈的核心在于智能体与其过去的版本或自身的副本进行互动。通过这种方式，智能体可以在没有外部干预的情况下探索和改进其策略。这一过程有助于克服多智能体强化学习中的非平稳性问题，尤其是在竞争环境中，智能体的策略会随时间而变化，导致原有策略的效果不再稳定。

在自我博弈的框架中，强化学习被建模为一个马尔可夫决策过程（MDP），其中状态、动作、转移和奖励的定义至关重要。智能体通过观察环境状态，选择基于策略的动作，并在执行后获得奖励，从而逐步优化其策略。

马尔可夫博弈与自我博弈的联系

在多智能体强化学习（MARL）中，智能体间的相互依赖使得环境对每个智能体而言都呈现出非平稳特征。因此，自我博弈为解决这些内在挑战提供了一种优雅的解决方案。通过与自身的副本进行互动，智能体能够更有效地学习和适应，从而提高学习的稳定性和效率。

自我博弈的算法框架 🛠️

自我博弈算法可以分为四大主要类别：传统自我博弈算法、PSRO系列算法、持续训练系列算法和基于遗憾最小化的算法。其中，每一类算法都有其独特的特征和应用场景。

1. 传统自我博弈算法

传统自我博弈算法通过智能体与自己最近版本对战来提升策略。这种方法允许智能体在不断竞争中识别并利用对手的弱点。最初时，算法通常使用简单的基于策略的更新机制，随着训练的深入，智能体逐渐学习到更复杂的策略。

2. PSRO系列算法

PSRO（Policy Space Response Oracles）系列算法通过引入对手样本策略的概念，扩展了传统自我博弈的框架。这些算法通常在复杂的博弈环境中表现出色，能够处理多种策略组合，并在动态环境中进行有效的策略更新。

3. 持续训练系列算法

持续训练系列算法的特点在于，所有有效策略会在每次迭代中共同训练，旨在提升整体策略的效果。这种方法能够有效避免每次迭代时对基础策略的重复学习，从而提高学习效率。

4. 基于遗憾最小化的算法

遗憾最小化算法则关注于在多个回合内优化策略，通过不断更新策略来减少过去决策的遗憾。这种方法特别适用于需要策略调整的重复博弈，如德州扑克等。

自我博弈的应用场景 🎮

自我博弈的算法框架在多个领域中展现出广泛的应用潜力，包括棋类游戏、卡牌游戏及视频游戏等。

1. 棋类游戏

在围棋和国际象棋等棋类游戏中，自我博弈算法已被证明能够开发出超越人类的策略。以DeepMind的AlphaGo为例，通过自我博弈，AlphaGo能够在没有人类数据的情况下，独立学习并优化其围棋策略。

2. 卡牌游戏

在德州扑克等卡牌游戏中，自我博弈的应用同样引人注目。通过与自身的不同版本进行博弈，智能体得以不断调整其策略，以应对对手的变化。这种方法在多玩家环境中尤其有效，能够帮助智能体在复杂的博弈局中寻找最优解。

3. 视频游戏

在实时策略游戏（RTS）和多人在线战斗竞技场（MOBA）游戏中，自我博弈可以帮助智能体快速适应动态变化的环境。例如，OpenAI Five在Dota 2中的表现就是通过自我博弈和强化学习结合实现的，展现了AI在复杂游戏环境中的强大能力。

面临的挑战与未来方向 🚀

尽管自我博弈在强化学习中展现出了显著的优势，但仍然面临诸多挑战。其中，如何解决算法的收敛性、计算资源的高需求、以及在真实世界中的应用问题，都是未来研究需要重点关注的方向。

未来的研究应当着重于提高自我博弈算法的理论基础，探索与大型语言模型（LLM）的结合，及其在现实应用中的可行性。这些研究将为自我博弈的进一步发展奠定基础，推动AI技术的进步与应用。

参考文献 📖
1. Zhang, R., Xu, Z., Ma, C., Yu, C., Tu, W., Huang, S., Ye, D., Ding, W., Yang, Y., Wang, Y. (2024). A Survey on Self-play Methods in Reinforcement Learning. arXiv:2408.01072.
2. Silver, D., Huang, A., Maddison, C. J., Guez, A., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature.
3. Brown, N., Sandholm, T. (2019). Superhuman AI for heads-up poker. Science.
4. Vinyals, O., et al. (2019). AlphaStar: Mastering the Real-Time Strategy Game StarCraft II. arXiv:1902.10565.
5. OpenAI. (2019). OpenAI Five.
2024 年 9 月 16 日
🕵️‍♀️ 一切从用户出发：构建更懂你的个人记忆宝库
“我的手机相册里到底有多少照片？”

“上个月我跑了多少次步？”

“上次去纽约旅行时，我到底吃了多少顿美食？”

是不是感觉似曾相识？我们每天都在用手机记录生活，照片、视频、截图，不知不觉间就积累了庞大的个人记忆库。然而，面对这些海量数据，想要快速找到想要的记忆碎片，却如同大海捞针般困难。

传统的相册搜索功能，只能基于简单的关键词或时间进行检索，对于那些需要上下文理解的复杂问题束手无策。想象一下，你想要寻找“上次和朋友聚餐时拍的那张照片”，却只能输入“朋友”或“餐厅”作为关键词，结果可想而知，必然是无数张毫不相关的照片扑面而来，让你淹没在信息的海洋中。 😩

为了解决这一难题，我们开发了 OmniQuery 系统，一个能够理解上下文、更智能的个人记忆问答系统。它就像是一位经验丰富的“记忆宫殿”管理员，能够帮你整理、归纳、理解你的记忆碎片，并根据你的自然语言提问，精准地找到你想要的答案。

🔬 深入用户需求：一个月的“日记”研究

俗话说， “磨刀不误砍柴工”。在设计 OmniQuery 之前，我们首先进行了一项为期一个月的日记研究，邀请了 29 位参与者记录下他们在日常生活中真实遇到的、想要查询个人记忆的问题。

分析收集到的 299 条真实用户查询后，我们发现，超过 74% 的问题都需要结合上下文信息才能得到解答，例如：
- “上周我喝过什么奶茶？” (需要结合时间信息)
- “在巴塞罗那，我参观过多少个教堂？” (需要结合地理位置信息)
- “去年和爷爷的合影在哪里？” (需要结合人物信息)
这些问题无法简单地通过关键词匹配来解决，而是需要对用户的记忆进行更深层次的理解和推理。为此，我们建立了一个上下文信息分类法，将用户查询中涉及的上下文信息分为三类：
1. 原子上下文：指通常可以从单个记忆实例中获取的上下文信息，例如时间、地点、人物、环境、活动等。类别例子时间信息 “上周”，“早上” 地理位置信息 “巴塞罗那”，“餐厅” 人物 “我和爷爷” 视觉元素 “短发”，“我的狗” 环境 “健身房” 活动 “有氧运动” 情感 “最快乐的时刻”
2. 组合上下文：指由多个原子上下文组合而成的、更复杂的上下文信息，例如一次旅行、一场会议、一次聚会等。例如，“CHI 2024” 就包含了时间（2024 年 CHI 大会期间）、地点（CHI 大会举办城市）、人物（参会者）等多个原子上下文信息。
3. 语义知识：指用户个人经历中蕴含的、更抽象的知识，例如“Jason 喜欢每周去 3-4 次健身房”。
下图展示了不同类型上下文信息在用户查询中的出现频率：
```
pie showData
title 上下文信息类型
"原子上下文" : 75
"组合上下文" : 191
"混合查询" : 33
```
🧠 OmniQuery：让机器更懂你的记忆

基于上述分类法，我们设计了 OmniQuery 系统，其核心在于一个与查询无关的预处理流程，用于从相互关联的记忆实例中提取、整合上下文信息，并用这些信息来增强每个记忆实例，使其更易于检索和理解。

具体来说，该预处理流程包括三个步骤：
1. 结构化单个记忆实例：利用多模态模型对每个记忆实例（照片、视频等）进行分析，提取其中的文本信息（例如照片中的文字、视频中的语音转录文本等）、视觉信息（例如人物、物体、场景等），并根据提取的信息自动标注相应的原子上下文信息。例如，对于一张拍摄于 CHI 2024 会场、展示了会议 Wi-Fi 信息的照片，OmniQuery 会自动识别出照片中的文字信息“CHI 2024”、“Wi-Fi”等，并将其与“会议”、“CHI 大会举办城市”等原子上下文信息相关联。
2. 识别组合上下文：由于用户的记忆是按照时间顺序线性记录的，因此与某个特定事件相关的记忆实例往往会聚集在一起。利用这一特点，OmniQuery 采用滑动窗口的方法，将用户的所有记忆实例按照时间顺序分成多个时间段，并在每个时间段内分析其中包含的原子上下文信息，自动识别出潜在的组合上下文信息。例如，如果用户在一段时间内拍摄了多张包含“CHI 2024”、 “会议中心”、“酒店”等原子上下文信息的照片，OmniQuery 就会自动推断出用户在这段时间内参加了 CHI 2024 大会，并将这些照片与“CHI 2024”这一组合上下文信息相关联。
3. 推断语义知识：语义知识是指用户个人经历中蕴含的、更抽象的知识。例如，如果用户的聊天记录中经常出现“Jason 每周去 3-4 次健身房”这样的句子，OmniQuery 就会自动推断出“Jason 有健身习惯”这一语义知识。为了推断语义知识，OmniQuery 会分析用户的所有记忆实例和组合上下文信息，并利用大型语言模型（LLM）进行推理。
经过以上三个步骤的处理后，用户的记忆实例就被赋予了丰富的上下文信息，从而能够支持更复杂、更智能的查询。

❓ OmniQuery：像搜索引擎一样提问

OmniQuery 的问答系统采用了检索增强生成（RAG）架构，该架构结合了传统信息检索方法和大型语言模型的优势，能够在处理海量数据的同时，生成更准确、更流畅的答案。

具体来说，当用户输入一个问题时，OmniQuery 会首先对问题进行增强，将其分解成多个更具体的子问题，并根据上下文信息进行补充和完善。

例如，对于问题“我在 CHI 2024 期间参加了哪些社交活动？”，OmniQuery 会将其分解成以下几个子问题：
- CHI 2024 的时间范围是什么时候？
- CHI 2024 的举办地点在哪里？
- 哪些活动属于社交活动？
接下来，OmniQuery 会根据增强后的问题，从结构化的记忆实例、组合上下文信息和语义知识库中检索相关信息，并将检索到的信息输入大型语言模型，生成最终的答案。

为了提高答案的生成质量，OmniQuery 还采用了思维链提示（Chain-of-Thought Prompting）技术，引导大型语言模型进行更深入的推理，生成更准确、更全面的答案。

🏆 OmniQuery：用户评测结果

为了评估 OmniQuery 的性能，我们招募了 10 位参与者，让他们在自己的个人记忆数据上测试 OmniQuery 和一个传统的基于关键词匹配的检索系统。

结果表明，OmniQuery 在准确率和完整度方面均优于传统的检索系统。

指标 OmniQuery 传统检索系统
准确率 71.5% 43.1%
获胜或打平率 74.5% 25.5%

参与者们对 OmniQuery 的评价也普遍高于传统的检索系统。他们认为 OmniQuery 能够更好地理解他们的问题，并给出更准确、更完整的答案。

🔮 OmniQuery：未来展望

OmniQuery 的出现，为我们提供了一种全新的方式来管理和利用个人记忆数据。在未来，OmniQuery 将继续朝着更加智能、更加人性化的方向发展，例如：
- 支持多模态输入和输出：例如允许用户使用语音、图像甚至视频来提问，并以更直观的方式展示答案。
- 支持错误纠正：例如允许用户对系统识别出的错误信息进行纠正，以提高系统的准确率。
- 支持后续查询：例如允许用户根据系统的回答，进一步 уточнить свой запрос 或提出新的问题。
我们相信，随着人工智能技术的不断发展，OmniQuery 将会变得越来越强大，最终成为我们每个人不可或缺的“记忆助手”。

📚 参考文献
2024 年 9 月 14 日

指标	OmniQuery	传统检索系统
准确率	71.5%	43.1%
获胜或打平率	74.5%	25.5%

标签： AGI

自我博弈：强化学习中的全新视角 🔍

自我博弈的理论基础 📚

马尔可夫博弈与自我博弈的联系

自我博弈的算法框架 🛠️

1. 传统自我博弈算法

2. PSRO系列算法

3. 持续训练系列算法

4. 基于遗憾最小化的算法

自我博弈的应用场景 🎮

1. 棋类游戏

2. 卡牌游戏

3. 视频游戏

面临的挑战与未来方向 🚀

参考文献 📖

🕵️‍♀️ 一切从用户出发：构建更懂你的个人记忆宝库

🔬 深入用户需求：一个月的“日记”研究

🧠 OmniQuery：让机器更懂你的记忆

❓ OmniQuery：像搜索引擎一样提问

🏆 OmniQuery：用户评测结果

🔮 OmniQuery：未来展望

📚 参考文献