博客

  • 规划作为推理的一种类型

    在人工智能领域,特别是强化学习(Reinforcement Learning)和规划(Planning)中,推理(Inference)是一个关键的概念。不同类型的推理方法,如边缘推理(Marginal Inference)、最大后验推理(Maximum-a-Posteriori Inference,MAP)和边缘最大后验推理(Marginal Maximum-a-Posteriori Inference,MMAP),在不同场景下有着不同的应用和效果。那么,当我们谈到“规划作为推理”时,这到底意味着什么呢?

    本文将通过变分推理(Variational Inference,VI)框架,展示不同类型的推理与规划的关系,并解释在不同的动态环境下,哪种推理方法最适合用于规划。

    1. 引言

    推理在概率图模型(Probabilistic Graphical Models)中有多种类型,例如边缘推理、最大后验推理和边缘最大后验推理。在本文中,我们将展示规划是一种独特的推理类型,并且在随机动态下,它与上述任何方法都不完全相同。进一步地,我们将展示如何根据规划的质量对这些方法进行排名。

    2. 背景

    2.1 马尔可夫决策过程(MDPs)

    有限时间的马尔可夫决策过程(MDP)可以表示为一个六元组 ({\cal X},{\cal A},p(x_{1}),{\cal P},{\cal R},T),其中 {\cal X} 是状态空间,{\cal A} 是动作空间,p(x_{1}) 是初始状态分布,{\cal P} 是转移概率,{\cal R} 是奖励函数,T 是时间跨度。

    2.2 变分推理

    变分推理通过最大化变分下界来近似后验分布。对于一个一般的因子图 f({\bm{x}},{\bm{a}}),变分推理问题可以表示为:

        \[\max_{q({\bm{x}},{\bm{a}})}\langle\log f({\bm{x}},{\bm{a}})\rangle_{q({\bm{x}},{\bm{a}})} + H^{\text{type}}_{q}({\bm{x}},{\bm{a}})\]

    其中 q({\bm{x}},{\bm{a}}) 是关于变量的任意变分分布,H^{\text{type}}_{q}({\bm{x}},{\bm{a}}) 是特定类型的熵。

    3. 方法

    3.1 标准MDPs的变分推理

    我们所关注的主要量是最佳指数效用,定义如下:

        \[F_{\lambda}^{\text{planning}} = \frac{1}{\lambda}\log\max_{\bm{\pi}}\mathbb{E}_{\bm{\pi}}\left[\exp(\lambda R({\bm{x}},{\bm{a}}))\right]\]

    其中,\lambda 是风险参数。

    3.2 因子化MDPs的变分推理

    对于因子化MDPs,我们可以使用类比于循环置信传播(Loopy Belief Propagation,LBP)的值置信传播(Value Belief Propagation,VBP)算法来进行近似规划。

    4. 不同类型的推理及其在规划中的适用性

    4.1 排名不同类型的推理

    通过观察不同类型推理的熵项,我们可以看出,对于给定的变分后验 q,它们的质量排序如下:

        \[F_{\lambda}^{\text{marginal}^{\text{U}}} \leq F_{\lambda}^{\text{MAP}} \leq F_{\lambda}^{\text{MMAP}} \leq F_{\lambda}^{\textbf{planning}} \leq F_{\lambda}^{\text{marginal}}\]

    4.2 动态的随机性是关键

    在动态是确定性的情况下,MAP和MMAP推理作为规划是合适的。但在动态是随机的情况下,MMAP和MAP的缺点在于缺乏对环境的反应能力。

    5. 相关工作

    不同文献中对“规划作为推理”的定义不一致,本文通过变分推理框架统一了这些定义,并提供了新的视角。

    6. 实证验证

    我们在合成MDPs和国际规划竞赛任务中验证了这些结果,结果表明在高随机性环境中,VBP优于其他类型的推理。

    7. 讨论

    变分框架为分析和理解不同类型的推理如何近似规划提供了强大的工具,并且揭示了随机性在规划中的关键作用。

    参考文献

    • Jordan, M. I., Ghahramani, Z., Jaakkola, T. S., & Saul, L. K. (1999). An introduction to variational methods for graphical models. Machine Learning, 37(2), 183-233.
    • Liu, Q., & Ihler, A. (2013). Variational algorithms for marginal MAP. The Journal of Machine Learning Research, 14(1), 3165-3200.
    • Sontag, D., Globerson, A., & Jaakkola, T. (2011). Introduction to dual decomposition for inference. Optimization for Machine Learning, 1, 219-254.

    通过本文的研究,我们不仅能够更好地理解不同类型推理在规划中的表现,还能为设计新的近似算法提供理论支持。


    Q: 这篇论文试图解决什么问题?

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文探讨了在概率图模型中进行规划时所使用的不同类型的推理(inference),并试图解决其中的一些问题和不一致性。具体来说,论文的主要贡献和解决的问题包括:

    1. 规划推理的类型: 论文首先指出,在文献中,当研究者提到“规划作为推理”时,并没有一致性,不同的类型被使用,且它们在实际规划中的应用能力与特定的近似方法或额外约束进一步纠缠在一起。
    2. 变分框架的应用: 作者使用变分框架(variational framework)来展示所有常用的推理类型如何对应于变分问题中熵项的不同权重,并且指出规划对应于一组不同的权重。
    3. 规划推理的新视角: 论文提出了一种新的视角,将规划视为一种独特的推理类型,并探讨了在随机动态下,规划推理与现有的推理方法(如边缘推理、最大后验推理等)的不同之处。
    4. 近似规划算法的开发: 论文开发了一种类似于循环信念传播(loopy belief propagation, LBP)的算法,称为值信念传播(value belief propagation, VBP),用于在具有因子化状态的马尔可夫决策过程中进行近似规划,而不会因为状态空间的指数级增长而导致不可解。
    5. 实证验证: 论文通过在合成MDP(Markov Decision Processes)和国际规划竞赛(International Planning Competition)中的任务上进行实证验证,来支持他们的观点和方法。
    6. 规划推理的适用性分析: 论文还分析了不同推理类型在规划中的适用性,特别是在不同随机性水平的环境中,以及如何根据环境的随机性来选择合适的推理类型。

    总的来说,这篇论文试图提供一个更加清晰和一致的框架来理解和实践规划中的推理过程,并通过变分推断的方法来改进和优化规划算法。

    Q: 有哪些相关研究?

    A: 论文中提到了多个与“规划作为推理”相关的研究工作,以下是一些主要的相关研究:

    1. Toussaint 和 Storkey (2006): 引入了MDP因子图中的政策,并使用EM算法最大化其参数的似然度。这是一种精确方法,更准确地说是规划作为学习而非推理的一种类型。
    2. Levine (2018): 使用最大后验推理(MAP inference)进行规划,只考虑了乘法设置λ=1,并提出了一种结构化后验,使得q(xt+1|xt, at) = P(xt+1|xt, at)。
    3. Cui et al. (2015): 提出了ARollout方法,可以看作是对边际推理的单次前向传递LBP近似,适用于因子化MDP。
    4. Cui 和 Khardon (2016); Cui et al. (2019): 开发了符合SOGBOFA,通过在外循环中使用梯度下降优化动作,同时在内循环中使用ARollout进行边际推理,提供了一种强大的基线,并在2018年国际概率规划竞赛(IPPC)中排名第二。
    5. Attias (2003): 选择了MAP推理进行规划。
    6. Palmieri et al. (2022); Wu 和 Khardon (2022): 最近引入的两个框架,用于从消息传递的角度分析规划。前者分析了六种更新规则及其对计划的定性影响;后者关注于分离消息传播的方向和近似类型。
    7. Cheng et al. (2013); Chen et al. (2015): 使用严格的变分框架来处理基于图的MDPs,类似于因子化MDPs,但具有因子化的动作空间。
    8. Kumar et al. (2015); Bhattacharya 和 Kharoufeh (2017); Altman (2021); Bhat et al. (2023): 关于非平稳、有限视界MDPs的线性规划(LP)公式的研究。
    9. Koller 和 Parr (1999); Guestrin et al. (2003); Malek et al. (2014): 提供了处理因子化MDPs的LP公式,与本文的工作有更密切的联系。

    这些研究为理解规划和推理之间的关系提供了不同的视角和方法,同时也展示了在概率图模型中进行规划的不同技术和算法。论文通过与这些相关工作的比较,展示了其提出的变分推理框架的优势和潜在的应用。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个关键步骤来解决“规划作为推理”中的不一致性和问题:

    1. 变分推理框架:作者采用了变分推理(Variational Inference, VI)的视角,将不同的推理类型统一到一个框架下。这允许直接比较不同推理类型,并为“规划推理”任务开发近似推理算法。
    2. 定义规划推理:论文提出了规划推理(planning inference)的定义,并展示了如何将其形式化为变分优化问题。这涉及到定义一个特定的熵项,称为“规划熵”(Hplanning(q)),它与已有的推理类型(如边际推理、MAP推理等)所采用的熵项不同。
    3. 价值信念传播(VBP)算法:为了处理具有因子化状态的马尔可夫决策过程(Factored MDPs),作者开发了一种类似于循环信念传播(LBP)的算法,称为价值信念传播(VBP)。VBP允许在不牺牲可解性的情况下,对具有指数级状态空间的MDP进行近似规划推理。
    4. 变分线性规划(VI LP):作者提出了一种变分线性规划方法,用于在因子化MDPs中估计最优期望奖励。这种方法利用了变分推理的框架,通过松弛变量和约束来提供一个可解的优化问题。
    5. 确定性规划的变分公式:论文展示了如何利用变分推理来获得确定性规划(Determinization in Hindsight)的封闭形式解。这通常通过采样来计算,但作者展示了如何通过变分方法避免采样,从而得到一个精确的解决方案。
    6. 实证验证:作者在合成MDPs和国际规划竞赛(International Planning Competition)中的任务上进行了实证验证,展示了所提出的变分推理框架和VBP算法相对于其他推理方法的优势。
    7. 分析和比较:论文详细分析了不同推理类型在规划中的适用性,并根据环境的随机性水平对它们进行了排名,指出了在不同情况下哪种推理类型更为合适。

    通过这些步骤,论文不仅提出了一种新的视角来理解规划中的推理过程,还开发了新的算法和技术来改进规划的效率和准确性。

    Q: 论文做了哪些实验?

    A: 论文中进行了以下实验来验证所提出方法的有效性:

    1. 合成MDPs(马尔可夫决策过程)实验
      • 生成了5,000个结构化的合成因子化MDP实例,这些实例具有随机动态、在最后一个时间步提供全有或全无的奖励,并控制了归一化熵。
      • 实验比较了不同推理方法在不同随机性水平下的性能,包括VBP、VI LP、MFVI-Bwd、ARollout、SOGBOFA-LC等。
    2. 国际概率规划竞赛(IPPC)任务实验
      • 在ICAPS 2011 IPPC的6个不同领域(Crossing traffic, Elevators, Game of life, Skill teaching, Sysadmin, Traffic)上评估了5种不同的推理方法(MFVI-Bwd, ARollout, SOGBOFA-LC, VI LP, VBP)。
      • 每个领域有10个实例,每个实例有40个时间步,并在轻度随机性的环境中进行评估。
      • 实验测量了不同方法在这些任务中的平均累积奖励,并与基线方法进行了比较。
    3. 反应性避免实验
      • 构建了一个多实体MDP,其中代理可以控制所需的反应性水平,但会因较低的反应性而受到惩罚。
      • 该实验旨在展示VBP如何保持最大反应性以实现奖励1,而SOGBOFA-LC由于其非反应性而只能获得较低的奖励。
    4. 确定性规划的变分公式实验(在附录E中描述):
      • 展示了如何使用变分推理来获得确定性规划的封闭形式解,这是一种通常通过采样计算的技术。

    这些实验的目的是展示所提出的变分推理框架和VBP算法在不同情况下相对于其他推理方法的优势,特别是在处理具有随机性和大规模状态空间的MDPs时。实验结果支持了论文中的观点,即VBP在高随机性环境中表现优于其他方法,并且在不同随机性水平下具有较好的一致性。

    Q: 有什么可以进一步探索的点?

    A: 论文提出了一个基于变分推理的规划框架,并对其进行了实证验证。尽管已经取得了一定的成果,但仍有一些潜在的研究方向可以进一步探索:

    1. 算法改进:虽然VBP(Value Belief Propagation)在某些情况下表现良好,但仍有可能通过改进消息传递算法、优化参数选择或开发新的变分推理技术来提高算法的效率和准确性。
    2. 理论分析:进一步研究变分规划推理的理论基础,包括其收敛性、收敛速度以及在不同类型的MDPs和不同随机性水平下的性能保证。
    3. 实际应用:将变分规划推理应用于更广泛的实际问题,例如机器人路径规划、自动驾驶、游戏AI等领域,以验证其在现实世界中的有效性。
    4. 多智能体系统:研究变分规划推理在多智能体系统中的应用,考虑如何在多个智能体之间协调和共享信息。
    5. 在线规划:探索变分规划推理在在线规划设置中的性能,即在不断变化的环境中实时进行规划和调整策略。
    6. 与深度学习的结合:研究如何将变分规划推理与深度学习模型结合起来,以利用深度学习在处理高维数据和复杂模式识别方面的优势。
    7. 泛化能力:研究变分规划推理的泛化能力,即在不同类型和规模的问题上的适用性和灵活性。
    8. 计算效率:优化变分规划推理的计算效率,特别是在大规模或复杂的问题上,以实现更快的推理速度。
    9. 鲁棒性研究:分析变分规划推理在面对模型不确定性或环境噪声时的鲁棒性,并探索提高鲁棒性的方法。
    10. 与其他规划方法的比较:与其他先进的规划方法进行比较,例如基于采样的方法、基于模型的方法等,以确定变分规划推理在不同情况下的优势和局限性。
    11. 软件工具和库的开发:开发易于使用的软件工具和库,使研究人员和实践者能够更容易地应用变分规划推理。
    12. 教育和普及:通过教育材料和教程,提高对变分规划推理概念和方法的理解和普及。

    这些方向不仅可以推动变分规划推理技术的发展,还可能为解决更广泛的人工智能问题提供新的视角和工具。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以总结如下:

    1. 问题定义:论文首先定义了在概率图模型中进行规划时所面临的不同类型的推理问题,包括边际推理、最大后验推理(MAP)和边际最大后验推理(MMAP),并指出了这些方法在规划中的不一致性。
    2. 变分推理框架:作者采用变分推理(Variational Inference, VI)框架来统一和比较不同的推理方法。通过变分框架,展示了所有常用的推理类型都可以视为变分问题中熵项的不同权重。
    3. 规划推理的变分公式:论文提出了规划推理(planning inference)的变分公式,定义了一个新的熵项Hplanning(q),并将规划推理视为一种独特的推理类型。
    4. 价值信念传播(VBP)算法:为了解决具有因子化状态的马尔可夫决策过程(Factored MDPs)中的近似规划问题,作者开发了VBP算法,这是一种类似于循环信念传播(LBP)的算法。
    5. 变分线性规划(VI LP):论文还提出了一种变分线性规划方法,用于在因子化MDPs中估计最优期望奖励,提供了一种可解的优化问题。
    6. 确定性规划的变分公式:作者展示了如何利用变分推理来获得确定性规划(Determinization in Hindsight)的封闭形式解,这是一种通常通过采样计算的技术。
    7. 实证验证:论文通过在合成MDPs和国际规划竞赛(International Planning Competition)中的任务上进行实证验证,展示了所提出的变分推理框架和VBP算法相对于其他推理方法的优势。
    8. 不同推理类型的适用性分析:论文分析了不同推理类型在规划中的适用性,并根据环境的随机性水平对它们进行了排名,指出了在不同情况下哪种推理类型更为合适。
    9. 相关工作:论文讨论了与“规划作为推理”相关的其他研究工作,并将其与所提出的变分推理框架进行了比较。
    10. 结论与未来工作:最后,论文总结了研究成果,并提出了一些可能的研究方向,如算法改进、理论分析、实际应用扩展等。

    整体而言,这篇论文提出了一个基于变分推理的规划框架,并通过理论分析和实证验证展示了其有效性,为理解和改进概率图模型中的规划推理提供了新的视角和工具。

  • 实时去偏:解释导向的人类监督机器学习系统决策

    引言

    机器学习(Machine Learning, ML)系统现在广泛应用于人类生活的各个关键领域,如招聘、金融和医疗等。这些系统可以降低人为错误,提高效率和可扩展性,并增强决策过程的准确性。然而,随着ML系统在与人类密切相关的领域中的使用日益增多,关于其决策公平性的担忧也在增加。例如,2018年,路透社发现亚马逊的简历筛选算法存在年龄和性别偏见,该算法对包含“女性”一词的简历和显示出较老申请者的毕业年份的简历进行了降级处理。尽管亚马逊迅速废除了该有偏见的算法,但很可能在其意识到不公平影响之前,该算法已被部署了数月。为了减少此类伦理问题,在ML系统的开发和部署前后持续进行公平性测试是至关重要的。

    目前,软件工程社区已经做出了各种努力,借鉴传统软件测试技术,首先搜索并减轻ML中的歧视。例如,Udeshi等人介绍了AEQUITAS,这是一种探索ML模型输入空间中的歧视性实例的公平性测试技术,然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。虽然当前的方法已被证明是有效的,但它们主要集中在开发阶段检测和解决歧视问题。在ML系统部署后的操作期间进行公平性测试的研究相对较少。为了解决这一差距,本研究提出了一种框架,用于持续监控已部署的ML系统,以评估其公平性。

    背景

    在讨论公平性、公平性测试、反事实解释和人类审查之前,我们需要先了解一些基本术语。

    公平性

    在ML系统中的决策公平性是指不存在基于个人或群体固有或获得属性的偏见或偏好。制定公平性是解决公平性问题和开发公平ML模型的第一步。在简单的术语中,假设ML预测模型h在决策时使用了包含敏感属性S和其他属性Z的数据集进行训练。公平性可表示为:

        \[F(X, Y, h, S, Z) = h(X, S, Z) ≈ h(X, S', Z)\]

    这意味着模型h在去除任何潜在偏见后,对同一组个体应做出相同的决策。

    个体公平性

    个体公平性确保相似的个体无论其保护属性如何,都应得到相似的结果。假设X代表一组属性(或特征),Q代表一组受保护的属性。个体公平性定义为:

        \[f(x_i) = f(x_{i'})\]

    其中,f为ML分类器,x_ix_{i'}代表具有相似非保护属性但可能具有不同保护属性的两个个体。

    公平性测试

    公平性测试是软件测试的一个分支,专注于暴露ML系统中的公平性漏洞。公平性测试可以分为离线和在线测试。离线公平性测试是在模型开发期间进行的,仅评估模型在给定训练数据上的公平性。相反,在线公平性测试是在ML系统部署后,使用实际输入数据持续监控和评估其公平性。

    反事实解释

    反事实解释是一种识别改变给定预测所需的最小变化的技术。通过提供与观察结果相似但产生不同结果的特定数据实例,反事实解释帮助理解某些因素对结果的直接影响。反事实解释的公式如下:

        \[c = \arg\min \text{loss}(f(c), y) + |x - c|\]

    其中,x为输入特征,f为模型,y为模型的输出,c为导致不同输出的反事实实例。

    将人类审查嵌入ML系统

    在ML系统的自动决策过程中,嵌入人类审查和监督(即人类在环)可以有效减少系统中的偏见。人类审查的主要目的是对ML模型的输出进行最终检查,以确保决策公平、无偏和准确。人类审查通常作为回顾性审查进行,即在ML系统运行后对其决策进行审查。

    相关工作

    文献中提出了多种方法来识别ML系统中的个体歧视。例如,Galhotra等人介绍了Themis,通过随机抽样输入空间来创建测试案例,并通过观察系统在测试中的行为来评估歧视性事件的频率。Udeshi等人提出了AEQUITAS,一种双阶段搜索的公平性测试技术,探索输入空间中的歧视性实例,然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。

    与现有方法相比,我们的工作聚焦于在线公平性测试,评估ML系统在运行期间的公平性。

    方法

    本节介绍了我们提出的概念模型。该模型旨在实时监控和缓解ML系统中的偏见,如贷款申请系统。过程如下图所示:

    反事实生成

    反事实生成过程包括输入一个输入实例x,并使用预训练的ML模型f生成反事实实例c_1, c_2, …, c_n,这些实例具有不同的保护属性组合。

    偏见检测

    自动偏见检测组件分析反事实生成过程的输出,以确定是否存在对原始实例的歧视。如果存在反事实示例,则会标记为需要人类审查;否则,ML模型的决策保持不变。

    人类审查

    人类审查在评估ML系统的公平性方面起着关键作用。自动偏见检测组件标记的歧视性实例和相应的反事实示例会传递给人类审查组件进行最终评估。人类审查提供了对系统行为的全面理解,允许在运行时识别和纠正不公平的偏见。

    使用案例示例

    示例1:医疗系统

    在医疗系统中,使用ML系统评估患者并预测再入院的可能性。如果模型对某些人口群体做出了有偏见的决定,可以通过反事实解释和自动偏见检测组件检测到这一偏见。

    示例2:教育系统

    在教育系统中,模型可以用于监控和解决招生委员会决策过程中的偏见。例如,反事实生成和自动偏见检测组件可以识别少数群体申请者在招生过程中是否被不公平地引导。

    示例3:贷款/信用评分系统

    在贷款/信用评分系统中,模型可以识别对黑人和少数群体申请者的偏见。利用反事实解释和自动偏见检测组件,这些偏见可以被标记并进行人类审查。

    示例4:刑事司法系统

    在刑事司法系统中,模型可以用于预测被告再犯的可能性。反事实生成和自动偏见检测组件可以揭示模型对黑人被告的歧视性决策。

    示例5:招聘系统

    在招聘系统中,模型可以识别对女性候选人的偏见。通过反事实生成和自动偏见检测组件,可以揭示系统的有偏见决策。

    结论

    本文提出了一个概念模型,用于通过人类审查和反事实解释在实时中跟踪和纠正个体歧视。我们的框架利用反事实解释的力量来识别ML系统中的歧视实例,并包括一个人类审查组件来减轻这些偏见。未来,我们计划构建并部署该系统,并进行公平性测试以确保其在实际操作中公正和公平。

    参考文献

    1. Mamman, Hussaini et al., “Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions”, 13th Computer Science On-line Conference, Lecture Notes on Networks and Systems, Springer, April 2024.
    2. Udeshi, S., et al., “AEQUITAS: A Fairness Testing Technique for Machine Learning Systems”, 2018.
    3. Galhotra, S., et al., “Themis: Automatically Testing Software for Discrimination”, 2017.
    4. Kusner, M., et al., “Counterfactual Fairness”, 2017.
    5. Yang, S., et al., “BiasRV: Detection of Gender Discrimination in Sentiment Analysis Systems”, 2020.
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-07-12 19:52:39
沪ICP备2024052574号-1