Summary: Multi-agent reinforcement learning (MARL) has witnessed a remarkable surge in interest, fueled by the empirical success achieved in applications of single-agent reinforcement learning (RL). In this study, we consider a distributed Q-learning scenario, wherein a number of agents cooperatively solve a sequential decision making problem without access to the central reward function which is an average of the local rewards. In particular, we study finite-time analysis of a distributed Q-learning algorithm, and provide a new sample complexity result of under tabular lookup
多智能体强化学习 (MARL): 论文引用了多篇关于MARL的研究,包括Sunehag et al., 2017; Rashid et al., 2020; Zhang et al., 2018b; Dou et al., 2022等,这些研究涉及算法进展和理论调查。
分布式学习: 论文讨论了分布式学习范式,特别是在没有中央奖励函数的情况下,智能体如何通过局部信息和邻居间的通信来协作解决问题。相关研究包括Tan, 1993; Claus and Boutilier, 1998; Littman, 2001; Mathkar and Borkar, 2016等。
分布式时间差分 (TD) 学习: 论文提到了分布式TD学习的相关工作,如Doan et al., 2019; Sun et al., 2020; Wang et al., 2020; Lim and Lee, 2023等。
Q学习: 作为单智能体强化学习中的一个重要算法,Q学习的相关研究包括Watkins and Dayan, 1992; Even-Dar et al., 2003; Chen et al., 2021; Lee et al., 2023; Li et al., 2024等。
分布式Q学习: 论文特别关注分布式Q学习的研究,包括Kar et al., 2013; Zeng et al., 2022b; Heredia et al., 2020等,这些研究探讨了分布式Q学习算法的渐近收敛性和有限时间性能。
分布式优化和控制: 论文中提到了分布式优化和控制在分布式学习中的应用,相关文献包括Nedic and Ozdaglar, 2009; Wang and Elia, 2010; Pu and Nedi´c, 2021等。
演员-评论家算法 (Actor-Critic Algorithm): 论文讨论了演员-评论家算法在分布式设置中的扩展,相关研究包括Zhang et al., 2018a,b; Zhang and Zavlanos, 2019; Suttle et al., 2020; Zeng et al., 2022a等。
处理动作空间指数级增长: 论文还提到了处理动作空间指数级增长的研究,如Lin et al., 2021; Qu et al., 2022; Zhang et al., 2023; Gu et al., 2024等。