作者： admin

监狱大逃亡：开源大语言模型的灾难性监禁漏洞
在人工智能（AI）快速发展的浪潮中，开源大型语言模型（LLMs）正如雨后春笋般崛起。随着 ChatGPT 和 Bard 等模型的问世，越来越多的研究者希望借助这些工具推动科学与技术的进步。然而，正如普林斯顿大学的研究团队在其最新论文中所揭示的那样，这些开源模型在安全性与伦理方面的脆弱性令人担忧。

模型的快速崛起与潜在风险

研究表明，尽管在模型发布前进行了大量的行为调整，以确保其对人类价值观的尊重，但这些模型依然容易受到恶意操控，导致意想不到的行为，通常称为“监禁漏洞”（jailbreaks）。这些漏洞通常是通过特定的文本输入触发的，被称为对抗性提示（adversarial prompts）。研究团队提出了一种新颖的生成利用攻击（generation exploitation attack），这是一种极为简单的方法，通过操控解码方法的变体来破坏模型的对齐性。

例如，当研究人员在 LLAMA2 模型中改变了采样的温度参数（temperature parameter），从 $p=0.9$ 降至 $p=0.75$ ，便成功绕过了模型的安全约束。这种简单的诱导手段揭示了当前安全评估和对齐程序的重大缺陷。

生成利用攻击：简单却致命

研究团队通过系统评估，发现利用不同的生成配置可以显著提高攻击成功率。他们在 11 个开源 LLM 上进行了实验，结果表明，攻击成功率可提高到超过 95%。这比当前最先进的攻击方法快了约 30 倍，且无需复杂的计算资源。更重要的是，研究者们强调，当前的对齐程序往往是基于默认的解码设置，而这些设置可能在稍微变化时显示出脆弱性。

例如，在对 LLAMA2-7B-CHAT 模型的攻击实验中，研究人员观察到，去除系统提示（system prompt）可以使攻击成功率从 0% 提高到 81%。这表明，系统提示在保持模型输出的对齐性方面起着至关重要的作用。

改进对齐方法的必要性

考虑到这些模型的脆弱性，研究团队提出了一种新的对齐策略，称为“生成感知对齐”（generation-aware alignment）。该策略通过主动收集在不同解码配置下生成的模型输出，以增强模型抵御生成利用攻击的能力。实验表明，这种新方法能够将攻击成功率从 95% 降低至 69%。

在与专有模型（如 ChatGPT）的比较中，研究发现开源模型的攻击成功率远高于专有模型，后者的攻击成功率仅为 7%。这突显出开源模型在安全性上的不足，尽管它们在可访问性和可扩展性方面具有优势。

未来展望

基于上述研究结果，研究团队呼吁更多的全面红队测试（red teaming）和更好的对齐方法，以确保在发布开源 LLM 之前，充分评估模型的安全性和潜在风险。未来，他们计划进一步探索生成利用攻击的转移性，以及在多模态模型中的应用。

在 AI 技术迅速发展的今天，确保模型的安全性与伦理性显得尤为重要。只有通过不断的研究和改进，我们才能在享受 AI 带来便利的同时，有效规避潜在风险。

参考文献
1. Huang, Y., Gupta, S., Xia, M., Li, K., Chen, D. (2024). Catastrophic Jailbreak of Open-Source LLMs via Exploiting Generation. ICLR 2024.
2. Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback.
3. Zou, J., et al. (2023). Adversarial prompts for large language models.
4. Bai, Y., et al. (2022). Aligning language models to follow instructions.
5. Touvron, H., et al. (2023). LLaMA: Open and efficient foundation language models.
2024 年 8 月 20 日
深入探讨通用函数逼近在离线强化学习中的角色
在人工智能领域,强化学习一直是一个备受关注的研究方向。随着计算能力的提升和强大函数逼近器的出现,强化学习在近年来取得了巨大的成功,在游戏、机器人控制等领域展现出了惊人的潜力。然而,传统的在线强化学习方法在医疗保健、自动驾驶等实际应用中面临着诸多挑战,主要是由于在线探索所带来的风险、成本和伦理顾虑。为了克服这些障碍,离线强化学习应运而生,它致力于利用预先收集的数据集来学习策略,而无需与环境进行实时交互。

离线强化学习的理论研究涵盖了从表格型马尔可夫决策过程(MDP)和低秩MDP等特殊情况,到更广泛和通用的函数逼近设置。虽然针对表格型MDP和低秩MDP的算法和理论结果在处理复杂的现实问题时往往力不从心,但通用函数逼近却展现出了巨大的潜力。本文将深入探讨通用函数逼近在离线强化学习中的角色,剖析其面临的挑战,并提出一些新的见解。

通用函数逼近的实际意义

从实际应用的角度来看,通用函数逼近具有重要意义。它刻画了逼近能力和逼近器复杂度(如支持向量机、神经网络等)如何共同影响学习算法的性能。在离线强化学习的分析中,函数类的逼近能力可以分为两类:可实现型和完备型。

给定一个函数类 $F$ 和一个逼近目标 $F^$ ,如果 $|F^| = 1$ (例如 $F^* = {Q^}$ ),则假设 $F^ \subseteq F$ 被视为可实现型(F 被称为可实现的)。如果存在一个(已知的)从 $F^*$ 到另一个可实现函数类 $G$ 的双射,则被视为完备型。

大多数理论算法和分析假设一个指数级大的函数类来实现可实现型假设,并提供关于 $\log(|F|)$ 的多项式样本复杂度保证。因此,完备型假设可能导致指数级的性能界,因为逼近目标本身可能是指数级大的。此外,最常见的完备型假设是Bellman完备(值函数类在Bellman算子下封闭),其中两个函数类(例如上面的 $F$ 和 $G$ )是相同的。这种”自完备”形式更加严格,因为仅仅向函数类中添加一个函数就可能违反性能保证(这与监督学习中的一般直觉相反)。因此,在大多数情况下,可实现型假设更受青睐。

函数假设还受到数据集质量的影响,这构成了离线强化学习中可学习性的另一个方面。一方面,有研究表明,可实现型假设(具体来说,是 $Q^*$ -可实现性)结合比经典的严格探索覆盖更强的数据假设,足以学习到一个近似最优策略。另一方面,也有研究表明,在一些温和的完备型假设下,即使是部分覆盖的数据集也足以学习到一个好的策略。然而,尽管做出了诸多努力,迄今为止还没有工作能够在函数类和数据集的弱假设下都实现可学习性。这引发了一个问题:通用函数逼近在离线强化学习中的局限性是什么?

通用函数逼近的挑战

在学习理论中,问题的根本局限性通常通过极小极大下界来识别。然而,在处理离线强化学习中的通用函数逼近时,建立这种下界变得具有挑战性。这主要是由于我们想要逼近的函数和它们之间的关系存在显著变化。更糟糕的是,为某些属性建立下界并不一定意味着可学习性的根本障碍。例如,如果为值函数建立了下界,并不一定意味着该问题不可学习。对密度比等属性的额外假设可能使其变得可学习。

为了增进对离线强化学习中通用函数逼近的理解,本文从以下几个方面进行了探讨:
1. 我们将离线强化学习中的函数假设分类为完备型和可实现型。基于这种分类,我们分析了它们的实际用途,并证明完备型假设通常是必要的,以便在算法中逼近每个可能策略的目标。
2. 我们展示了强化学习中的函数类可以被视为对可能的MDP的限制。我们可以将这种限制具体化为模型可实现性,即假设我们有一个包含真实MDP的MDP类 $\mathcal{M}$ 。这使我们能够为模型可实现性建立下界,并将其扩展到其他函数类。
3. 我们提出了一个通用函数逼近的一般性下界定理。基于第4节中提出的下界构造原理,我们从该定理中推导出一些有趣的推论: a. 给定策略类中特定策略的值函数和密度比的可实现型假设,以及”任何”数据覆盖假设,我们无法学习到比上述策略更好的策略。 b. 给定策略类中特定策略的任何以状态空间为输入的函数的探索准确可实现型假设,以及”任何”数据覆盖假设,我们无法学习到比上述策略更好的策略。 c. 给定策略类中特定策略的任何函数的行为准确可实现型假设,以及”任何”数据覆盖假设,我们无法学习到比上述策略更好的策略。
4. 我们以引入部分覆盖为代价,用 $Q^*$ -可实现性增强了第5节的结果。这个增强下界的一个局限性是被覆盖的策略不是最优的。
通用函数逼近的角色

通用函数逼近在离线强化学习中扮演着至关重要的角色。它不仅为算法设计和分析提供了强大的工具,还帮助我们更好地理解问题的本质和局限性。以下是通用函数逼近在离线强化学习中的几个关键角色:
1. 桥接理论与实践: 通用函数逼近为我们提供了一个框架,使我们能够将理论分析扩展到复杂的实际问题中。它允许我们在保持理论洞察力的同时,处理高维状态和动作空间,以及复杂的动态系统。
2. 刻画逼近能力: 通过可实现型和完备型假设,通用函数逼近帮助我们量化和理解不同函数类的逼近能力。这为算法设计和性能分析提供了重要指导。
3. 揭示学习障碍: 通过建立下界,通用函数逼近帮助我们识别离线强化学习中的根本限制。这些洞察对于理解什么是可学习的,以及在什么条件下可学习,至关重要。
4. 指导数据收集: 通用函数逼近的分析结果可以为离线数据集的收集提供指导。例如,它可以帮助我们理解什么样的数据覆盖是必要的,以及如何平衡数据多样性和策略目标。
5. 启发新算法设计: 对通用函数逼近的深入理解可以激发新的算法设计思路。例如,了解不同假设的影响可以帮助我们设计更加鲁棒和高效的学习算法。
6. 促进跨领域融合: 通用函数逼近为将其他领域的技术(如深度学习)引入强化学习提供了理论基础。这种融合可能会带来新的突破和创新。
结论与展望

通用函数逼近在离线强化学习中扮演着核心角色,它不仅提供了理论分析的工具,还为实际应用提供了重要指导。本文通过深入探讨通用函数逼近的角色,揭示了其在离线强化学习中的重要性和局限性。

我们的分析表明,虽然通用函数逼近为离线强化学习带来了巨大潜力,但它也面临着诸多挑战。特别是,完备型假设虽然常见,但可能会导致不必要的复杂性和潜在的性能损失。相比之下,可实现型假设通常更受青睐,但在某些情况下可能不足以保证学习性能。

未来的研究方向可能包括:
1. 探索更加灵活和鲁棒的函数假设,以在保持理论保证的同时减少对完备性的依赖。
2. 设计能够自适应不同函数假设的算法,以在各种实际场景中实现良好性能。
3. 进一步研究函数假设与数据覆盖假设之间的相互作用,以更好地理解离线强化学习的可学习性边界。
4. 探索将通用函数逼近的见解应用于其他相关领域,如在线强化学习和多智能体系统。
5. 开发新的理论工具和框架,以更好地分析和理解通用函数逼近在复杂环境中的行为。
总的来说,通用函数逼近为离线强化学习开辟了广阔的研究前景。随着我们对其角色的理解不断深化,我们有望开发出更加强大和可靠的学习算法,从而推动强化学习在各个领域的实际应用。

参考文献:
1. Mao, C., Zhang, Q., Wang, Z., & Li, X. (2024). On the Role of General Function Approximation in Offline Reinforcement Learning. ICLR 2024.
2. Chen, J., & Jiang, N. (2019). Information-theoretic considerations in batch reinforcement learning. In International Conference on Machine Learning (pp. 1042-1051). PMLR.
3. Liu, Y., Swaminathan, A., Agarwal, A., & Brunskill, E. (2020). Provably good batch reinforcement learning without great exploration. Advances in Neural Information Processing Systems, 33, 1264-1274.
4. Xie, T., & Jiang, N. (2020). Q* approximation schemes for batch reinforcement learning: A theoretical comparison. In Uncertainty in Artificial Intelligence (pp. 550-559). PMLR.
5. Foster, D. J., Kakade, S. M., Krishnamurthy, A., & Langford, J. (2021). Off-policy policy evaluation for large action spaces via approximate policy iteration. arXiv preprint arXiv:2102.05627.
2024 年 8 月 20 日