博客

Neuromorphic Dreaming: 高效学习的未来路径
引言

在人工智能（AI）计算平台上实现高效的能源利用是一个关键挑战。生物系统展示了在复杂技能学习中的快速且高效的能力，这为AI的研究提供了重要的灵感。因此，本文提出了一种基于模型的强化学习（Model-Based Reinforcement Learning，MBRL）方法，使用混合信号类脑（neuromorphic）硬件上的脉冲神经网络（Spiking Neural Networks，SNNs）进行实现，从而提高样本效率和能源效率。

基于模型的强化学习

混合信号神经形态硬件

混合信号神经形态硬件结合了模拟和数字信号处理的优点，能够在低功耗的情况下实现复杂的神经网络计算。本文使用的DYNAP-SE神经形态处理器架构，基于指数泄露积分发放（ExLIF）模型，实现了高效的神经元动态模拟。

“清醒-做梦”学习阶段

提出了一种”清醒-做梦”学习模式，交替进行在线学习（清醒阶段）和离线学习（做梦阶段）。在清醒阶段，代理与真实环境互动并更新其策略和世界模型；在做梦阶段，代理使用学习到的世界模型生成模拟经验，进一步细化策略。这种方法模拟了生物大脑在清醒和睡眠状态下的学习过程，提高了学习效率。

两个共生网络

模型包括两个网络：一个代理网络，通过结合真实和模拟经验进行学习；一个学习到的世界模型网络，用于生成模拟经验。这两个网络相互作用，共同提高系统的学习效率。

实验设计

为了验证所提出方法的有效性，本文在Atari游戏Pong中进行了实验。实验包括以下几个步骤：

基线代理无做梦能力

建立了一个没有做梦能力的SNN基线代理，架构包括一个输入层，一个隐藏层（由510个漏斗积分发放（LIF）神经元组成），以及一个3单元读出层。代理仅在读出层更新权重，使用基于奖励的策略梯度规则进行训练。

代理加入做梦能力

在基线代理的基础上增加了做梦能力，使用一个单独的模型网络来学习环境动态。模型网络架构与代理类似，但有3个额外的动作输入和4+1个读出单元来预测下一个状态和奖励。

时间考虑

为了优化系统性能和训练时间，研究了10毫秒、20毫秒和50毫秒的等待时间，最终选择了10毫秒的等待时间以最小化训练时间。

实验设置

实验在OpenAI Gym工具包中的Atari Pong视频游戏环境中进行，每个训练运行包括2000个游戏，每个游戏持续100帧。进行了10次独立的训练运行，以确保结果的稳健性和可靠性。

实验结果

实验结果显示，通过引入做梦能力，显著提高了样本效率，使得代理在与真实环境的交互次数减半的情况下达到更高的分数。图表展示了有无做梦能力的代理在训练过程中的平均回报以及策略熵的演变。

未来研究方向

论文提出了多个未来研究方向，包括：
- 将读出层的权重量化，并转移到神经形态芯片上
- 使用泊松脉冲发生器进行输入编码
- 在更复杂的游戏和现实世界应用上测试方法
- 训练世界模型以应对更复杂的任务和环境
- 优化神经形态硬件的参数
- 提高系统的鲁棒性
- 探索不同的学习规则和网络架构
结论

本文提出了一种新颖的基于模型的强化学习方法，通过结合神经形态硬件和“清醒-做梦”学习模式，提高了AI系统的能源效率和学习能力。实验结果验证了该方法的有效性，展示了其在现实世界应用中的潜力。这种方法为开发能够快速适应真实世界环境的高效智能系统提供了新的思路。

通过本文的研究，我们看到了神经形态硬件在未来AI发展中的巨大潜力。随着技术的不断进步，我们有理由相信，未来的智能系统将不仅更加智能，还会更加环保和高效。

Achieving energy efficiency in learning is a key challenge for artificial intelligence (AI) computing platforms. Biological systems demonstrate remarkable abilities to learn complex skills quickly and efficiently. Inspired by this, we present a hardware implementation of model-based reinforcement learning (MBRL) using spiking neural networks (SNNs) on mixed-signal analog/digital neuromorphic hardware. This approach leverages the energy efficiency of mixed-signal neuromorphic chips while achieving high sample efficiency through an alternation of online learning, referred to as the “awake” phase, and offline learning, known as the “dreaming” phase. The model proposed includes two symbiotic networks: an agent network that learns by combining real and simulated experiences, and a learned world model network that generates the simulated experiences. We validate the model by training the hardware implementation to play the Atari game Pong. We start from a baseline consisting of an agent network learning without a world model and dreaming, which successfully learns to play the game. By incorporating dreaming, the number of required real game experiences are reduced significantly compared to the baseline. The networks are implemented using a mixed-signal neuromorphic processor, with the readout layers trained using a computer in-the-loop, while the other layers remain fixed. These results pave the way toward energy-efficient neuromorphic learning systems capable of rapid learning in real world applications and use-cases.

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的关键问题是在人工智能（AI）计算平台上实现能源效率的学习。具体来说，它探讨了如何借鉴生物系统快速高效学习复杂技能的能力，来开发一种硬件实现的基于模型的强化学习（MBRL）方法，该方法使用混合信号类脑（neuromorphic）硬件上的脉冲神经网络（SNNs）。这种方法旨在利用混合信号神经形态芯片的能源效率，并通过在线学习（即“清醒”阶段）和离线学习（即“做梦”阶段）的交替来实现高样本效率。通过这种“清醒-做梦”学习模式，论文中的模型能够在有限的真实环境交互下，通过模拟经验来提高学习效率，从而为开发能够快速学习现实世界应用案例的能源高效神经形态学习系统铺平了道路。

Q: 有哪些相关研究？

A: 这篇论文提到了多个与神经形态硬件、脉冲神经网络（SNNs）、强化学习以及相关学习算法和架构相关的研究。以下是一些论文中引用的相关研究：
1. 深度强化学习（DRL）算法的适应：论文中提到了将深度Q网络（DQN）和双延迟深度确定性策略梯度（TD3）等深度强化学习算法适应于脉冲网络，这些网络在离散和连续动作空间环境中都得到了应用。
2. 基于模型的强化学习（MBRL）：论文采用了一种最近提出的MBRL方法，该方法使用SNNs并且与神经形态硬件实现兼容。
3. 神经形态硬件：论文中讨论了神经形态计算系统，这些系统使用专门的硬件基板来模拟生物神经网络的计算原理。
4. DYNAP-SE神经形态处理器架构：论文中使用了DYNAP-SE这一通用神经形态处理器架构，它实现了基于指数泄露积分发放（ExLIF）模型的基本神经元动态。
5. e-prop方法：这是一种生物学上合理的演员-评论家和通过时间的反向传播的形式，代表了脉冲网络强化学习的最新技术方法。
6. Spike-timing-dependent plasticity (STDP)：论文中提到了基于奖励信号调节STDP的想法，这是强化学习在脉冲网络中的一种实现方式。
7. 局部突触可塑性规则：论文中提到了使用基于奖励的局部可塑性规则的方法，这些方法对于简单任务效果很好，但在复杂的控制场景中面临限制。
8. 记忆整合和强化学习：论文中提到了做梦在记忆整合和生物大脑中的强化学习中的作用。
9. 人口编码技术：用于将环境状态变量和选定的动作转换为可以被网络处理的脉冲序列。
这些研究为论文提出的模型提供了理论和技术基础，帮助实现了在神经形态硬件上的高效学习。论文通过结合这些研究成果，提出了一种新的神经形态学习系统，该系统能够在真实世界应用和用例中实现快速学习，并且具有能源效率。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决人工智能学习平台的能源效率问题：
1. 模型基础强化学习（MBRL）：论文提出了一种基于模型的强化学习方法，这种方法使用脉冲神经网络（SNNs），并且与神经形态硬件兼容。这种方法被证明比现有的无模型强化学习方法更具样本效率。
2. 混合信号神经形态硬件：利用混合信号神经形态芯片的能源效率，特别是DYNAP-SE神经形态处理器架构，该架构实现了指数泄露积分发放（ExLIF）模型的神经元动态。
3. “清醒-做梦”学习阶段：提出了一种”清醒-做梦”学习模式，其中包括在线学习和离线学习的交替。在”清醒”阶段，代理与真实环境互动并更新其策略和世界模型；而在”做梦”阶段，代理使用学习到的世界模型生成模拟经验，进一步细化策略。
4. 两个共生网络：模型包括两个网络：一个代理网络，通过结合真实和模拟经验学习；一个学习到的世界模型网络，用于生成模拟经验。
5. 硬件实现：通过使用混合信号神经形态处理器，其中读出层通过与计算机的交互进行训练，而其他层保持固定，实现了网络的硬件实现。
6. 输入编码：使用人群编码技术将游戏状态变量和选定的动作转换为可以被网络处理的脉冲序列。
7. 实验验证：通过在Atari游戏Pong上的实验，验证了所提出模型的有效性。实验结果表明，通过引入”做梦”阶段，显著减少了与真实环境的交互次数，同时保持了良好的性能。
通过这些方法，论文展示了一种能够在真实世界应用和用例中快速学习且能源效率高的神经形态学习系统。这种方法受到生物神经系统的启发，并利用了神经形态硬件的计算优势。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估所提出的基于神经形态硬件的强化学习方法。以下是实验的主要内容：
1. 基线代理无做梦能力（Baseline agent without dreaming）：
  - 建立了一个没有做梦能力的SNN基线代理。
  - 代理架构包括一个输入层，一个隐藏层（由510个漏斗积分发放（LIF）神经元组成），以及一个3单元读出层。
  - 仅在读出层更新权重，使用基于奖励的策略梯度规则。
2. 代理加入做梦能力（Agent with dreaming）：
  - 在基线代理的基础上增加了做梦能力，使用一个单独的模型网络来学习环境动态。
  - 模型网络架构与代理类似，但有3个额外的动作输入和4+1个读出单元来预测下一个状态和奖励。
  - 训练在“清醒”阶段和“做梦”阶段之间交替进行。
3. 时间考虑（Timing considerations）：
  - 优化系统性能和训练时间需要仔细考虑更新输入和从隐藏神经元读取脉冲之间的等待时间。
  - 研究了10毫秒、20毫秒和50毫秒的等待时间，选择了10毫秒的等待时间以最小化训练时间。
4. 实验设置（Experiments and results）：
  - 在OpenAI Gym工具包中的Atari Pong视频游戏环境中进行了一系列的实验。
  - 每个训练运行包括2000个游戏，每个游戏持续100帧。
  - 进行了10次独立的训练运行，以确保结果的稳健性和可靠性。
5. 结果（Results）：
  - 通过图表展示了有无做梦能力的代理在训练过程中的平均回报。
  - 观察到引入做梦能力可以显著提高样本效率，使得代理在与真实环境的交互次数减半的情况下达到更高的分数。
  - 还展示了具有做梦能力的一个代表性训练运行中策略熵的演变。
6. 讨论（Discussion）：
  - 论文讨论了实验结果的意义、方法的局限性以及未来研究的方向。
7. 结论（Conclusion）：
  - 论文总结了实验结果，强调了基于模型的强化学习与脉冲网络在神经形态硬件上实现样本效率高和能源效率高的学习系统的潜力。
这些实验验证了所提出方法的有效性，并展示了在神经形态硬件上实现强化学习代理的可行性。通过做梦阶段的引入，代理能够在有限的真实环境交互下实现更有效的学习。

Q: 有什么可以进一步探索的点？

A: 论文在讨论部分提出了一些潜在的研究方向和可以进一步探索的点，以下是几个主要的点：
1. 将读出层转移到神经形态芯片上：
  - 探索将读出层的权重量化，并使用并行连接或利用下一代芯片更可编程的特性和突触权重，将这些层转移到神经形态芯片上。
2. 使用泊松脉冲发生器进行输入编码：
  - 考虑使用泊松脉冲发生器作为输入编码方案，这可能需要进一步的工程优化，以减少DYNAP-SE芯片上泊松脉冲发生器的更新时间。
3. 在更广泛的任务上测试方法：
  - 在更复杂的游戏和现实世界应用上测试所提出的方法，以评估其普适性和可扩展性。
4. 训练世界模型以应对更复杂的任务和环境：
  - 考虑使用多个代理在训练过程中收集更多样的环境信息，以提高模型网络捕捉环境动态的能力。
5. 优化神经形态硬件的参数：
  - 进一步研究和优化DYNAP-SE芯片的参数，以改善性能和可靠性。
6. 提高系统的鲁棒性：
  - 研究如何提高系统对设备不匹配和环境变化的鲁棒性，例如通过群体编码、片上学习和校准机制。
7. 探索不同的学习规则和网络架构：
  - 研究其他可能更适合神经形态硬件的本地学习规则和网络架构。
8. 开发更高级的模拟环境：
  - 开发更高级的模拟环境，以更好地模拟真实世界的情况，并用于训练和测试神经形态系统。
9. 集成更复杂的记忆和规划机制：
  - 探索如何将更复杂的记忆和规划机制集成到神经形态系统中，以提高其在复杂任务中的表现。
10. 跨学科合作：
  - 鼓励神经科学、计算机科学、电子工程等领域的研究人员之间的合作，以推动神经形态计算和智能系统的发展。
这些探索点可以帮助推动神经形态计算领域的发展，并为创建能够适应真实世界环境的智能系统提供新的思路和方法。

Q: 总结一下论文的主要内容

A: 这篇论文《Neuromorphic dreaming: A pathway to efficient learning in artificial agents》主要探讨了如何通过模仿生物神经系统的高效学习能力，提高人工智能（AI）计算平台的能源效率。以下是论文的主要内容概述：
1. 问题背景：随着AI模型的不断进步，能源效率成为了一个关键挑战。生物系统能够快速且高效地学习复杂技能，这为AI提供了灵感。
2. 研究目标：提出一种基于模型的强化学习方法（MBRL），使用脉冲神经网络（SNNs）在混合信号类脑（neuromorphic）硬件上实现，以提高样本效率和能源效率。
3. 方法论：
  - 神经形态硬件：使用DYNAP-SE神经形态处理器，该处理器采用指数泄露积分发放（ExLIF）模型实现神经元动态。
  - “清醒-做梦”学习阶段：交替进行在线学习（清醒）和离线学习（做梦）阶段，以提高学习效率。
  - 两个网络：代理网络和世界模型网络，前者负责决策制定，后者负责模拟环境动态。
4. 实验设计：
  - 在Atari Pong游戏中进行实验，验证模型的有效性。
  - 对比有无“做梦”阶段的代理性能，以及策略熵随训练的变化。
5. 实验结果：
  - 引入“做梦”阶段显著提高了样本效率，减少了与真实环境的交互次数。
  - 代理能够更快地达到更高的游戏分数，并且策略熵随着训练的进行而降低，表明代理的行动选择变得更加自信。
6. 讨论与贡献：
  - 论文讨论了使用DYNAP-SE神经形态处理器实现实时交互的重要性和挑战。
  - 提出了未来研究方向，包括将读出层转移到神经形态芯片上，使用泊松脉冲发生器进行输入编码，以及在更复杂的任务和环境中测试方法。
7. 结论：
  - 论文总结了通过在神经形态硬件上实现基于模型的强化学习，可以创建出既节能又高效的学习系统。
  - 强调了这种方法在开发能够适应真实世界环境的智能代理方面的潜力。
整体而言，论文提出了一种新颖的方法，通过结合神经形态硬件和强化学习，提高了AI系统的能源效率和学习能力，为未来智能系统的发展提供了新的思路。
2024 年 5 月 28 日
提高MySQL性能：修改事务隔离级别的最佳实践
在实际生产环境中，合理选择和调整MySQL的事务隔离级别可以显著提升系统的性能。然而，事务隔离级别的调整需要结合实际业务需求和系统的并发访问情况，因此需要对其特点及适用场景有充分的了解。本文将详细介绍如何通过修改MySQL的事务隔离级别来提高性能，并提供相关的操作方法。

了解事务隔离级别的特点和适用场景

MySQL定义了四种常见的事务隔离级别：
1. 读未提交（Read Uncommitted）：允许一个事务读取另一个事务未提交的数据，可能导致脏读问题。不推荐在生产环境中使用。
2. 读提交（Read Committed）：一个事务只能读取已经提交的数据，避免了脏读问题，但可能导致不可重复读问题。适用于大多数场景。
3. 可重复读（Repeatable Read）：一个事务在执行期间多次读取同一数据时，能够保证读取到的结果一致，避免了脏读和不可重复读问题，但可能存在幻读问题。是InnoDB的默认隔离级别。
4. 串行化（Serializable）：最高的隔离级别，强制事务串行执行，避免了脏读、不可重复读和幻读问题，但降低了并发性能。
评估当前系统的性能瓶颈

在修改事务隔离级别之前，需要先评估当前系统的性能瓶颈。通过性能监控工具（如MySQL的Explain、Slow Query Log等）来分析系统的性能问题，确定是否由于事务隔离级别不当导致性能瓶颈。

修改事务隔离级别的方法

临时修改

可以在当前会话中临时修改事务隔离级别，使用以下命令：
```
SET SESSION TRANSACTION ISOLATION LEVEL <isolation_level>;
```
例如，将隔离级别设置为读提交：
```
SET SESSION TRANSACTION ISOLATION LEVEL READ COMMITTED;
```
全局修改

全局修改事务隔离级别，需要重启MySQL服务才能生效，使用以下命令：
```
SET GLOBAL TRANSACTION ISOLATION LEVEL <isolation_level>;
```
例如，将隔离级别设置为可重复读：
```
SET GLOBAL TRANSACTION ISOLATION LEVEL REPEATABLE READ;
```
选择合适的事务隔离级别

根据实际业务需求和并发访问情况选择合适的事务隔离级别：
- 读提交（Read Committed）：适用于大多数场景，可以避免脏读问题。
- 可重复读（Repeatable Read）：适用于需要保证数据一致性，但不介意幻读问题的场景。
- 串行化（Serializable）：适用于需要最高数据一致性的场景，但要注意可能导致的并发性能问题。
监控和调优

在修改事务隔离级别后，需要进行性能监控和调优，确保系统的性能得到提升。可以使用MySQL的性能监控工具，如Explain、Slow Query Log等，来分析和优化查询语句的性能。

参考资料
通过合理选择和调整事务隔离级别，可以在保证数据一致性的同时，提高系统的并发性能。但需要注意的是，事务隔离级别的调整应该根据实际业务需求和并发访问情况进行权衡，以确保系统的稳定和高效运行。

要查询当前MySQL全局事务隔离级别，可以使用以下SQL命令：
```
SELECT @@GLOBAL.transaction_isolation;
```
这个命令会返回当前MySQL实例的全局事务隔离级别。以下是一个示例输出：
```
mysql> SELECT @@GLOBAL.transaction_isolation;
+------------------------------+
| @@GLOBAL.transaction_isolation |
+------------------------------+
| REPEATABLE-READ              |
+------------------------------+
1 row in set (0.00 sec)
```
在这个例子中，MySQL的全局事务隔离级别是“REPEATABLE-READ”。

另外，你也可以查询当前会话的事务隔离级别，使用以下命令：
```
SELECT @@SESSION.transaction_isolation;
```
这个命令会返回当前会话的事务隔离级别。
```
mysql> SELECT @@SESSION.transaction_isolation;
+-------------------------------+
| @@SESSION.transaction_isolation |
+-------------------------------+
| REPEATABLE-READ               |
+-------------------------------+
1 row in set (0.00 sec)
```
在这个例子中，当前会话的事务隔离级别也是“REPEATABLE-READ”。

通过这些命令，你可以方便地查看MySQL的事务隔离级别设置，以便进行相应的调整和优化。

什么是幻读问题？

幻读（Phantom Read）是指在一个事务中，多次执行同一个查询时，结果集的行数可能不一致。具体来说，当一个事务在查询某一范围的数据时，另一个事务在该范围内插入了新的数据，导致前一个事务再次查询时，结果集中出现了“幻影”数据。这种现象通常发生在并发事务处理中，是一种并发一致性问题。

幻读问题的示例

假设有一个表 heros_temp，记录了许多英雄的信息。以下是一个简单的示例来说明幻读问题：
1. 事务A：开始一个事务并查询所有英雄： BEGIN; SELECT * FROM heros_temp WHERE id BETWEEN 1 AND 20; 此时，假设查询结果包含10条记录。
2. 事务B：在 heros_temp 表中插入一个新的英雄记录，该记录的 id 在事务A查询的范围内： BEGIN; INSERT INTO heros_temp (id, name) VALUES (15, '吕布'); COMMIT;
3. 事务A：再次执行相同的查询：
  sql SELECT * FROM heros_temp WHERE id BETWEEN 1 AND 20;
  此时，查询结果会包含11条记录，因为事务B插入的新记录也被包含进来。这就产生了幻读现象。
InnoDB 如何解决幻读问题

InnoDB存储引擎默认的事务隔离级别是 可重复读（Repeatable Read）。虽然可重复读能够避免脏读（Dirty Read）和不可重复读（Non-repeatable Read）问题，但它不能完全避免幻读问题。

使用Next-Key Locks

InnoDB通过使用一种称为 Next-Key Locks 的锁机制来部分解决幻读问题。Next-Key Locks结合了行锁和间隙锁，锁定了索引记录以及索引记录之间的间隙，从而阻止其他事务在锁定范围内插入新记录。

例如，在上述示例中，当事务A执行查询时，InnoDB会锁定 id 为1到20之间的所有记录，以及这些记录之间的间隙。这意味着在事务A提交之前，事务B无法在 id 为1到20之间插入新的记录，从而避免幻读问题。

完全避免幻读

要完全避免幻读，可以将事务隔离级别设置为 串行化（Serializable）。在串行化隔离级别下，事务将按照顺序执行，确保事务之间完全隔离，从而避免所有并发一致性问题，包括幻读。
```
SET SESSION TRANSACTION ISOLATION LEVEL SERIALIZABLE;
```
然而，串行化隔离级别会显著降低系统的并发性能，因此需要根据实际业务需求进行权衡。

总结

幻读是并发事务处理中常见的一种一致性问题，指的是一个事务在多次执行相同查询时，结果集中出现了其他事务新插入的记录。InnoDB通过使用Next-Key Locks部分解决了幻读问题，但要完全避免幻读，需要将事务隔离级别设置为串行化。选择合适的事务隔离级别，需要在性能和数据一致性之间进行权衡。
2024 年 5 月 27 日

博客

Neuromorphic Dreaming: 高效学习的未来路径

引言

基于模型的强化学习

混合信号神经形态硬件

“清醒-做梦”学习阶段

两个共生网络

实验设计

基线代理无做梦能力

代理加入做梦能力

时间考虑

实验设置

实验结果

未来研究方向

结论

提高MySQL性能：修改事务隔离级别的最佳实践

了解事务隔离级别的特点和适用场景

评估当前系统的性能瓶颈

修改事务隔离级别的方法

临时修改

全局修改

选择合适的事务隔离级别

监控和调优

参考资料

什么是幻读问题？

幻读问题的示例

InnoDB 如何解决幻读问题

使用Next-Key Locks

完全避免幻读

总结