监狱大逃亡：开源大语言模型的灾难性监禁漏洞

在人工智能（AI）快速发展的浪潮中，开源大型语言模型（LLMs）正如雨后春笋般崛起。随着 ChatGPT 和 Bard 等模型的问世，越来越多的研究者希望借助这些工具推动科学与技术的进步。然而，正如普林斯顿大学的研究团队在其最新论文中所揭示的那样，这些开源模型在安全性与伦理方面的脆弱性令人担忧。

友情链接：借一步背多分 ACEJoy

模型的快速崛起与潜在风险

研究表明，尽管在模型发布前进行了大量的行为调整，以确保其对人类价值观的尊重，但这些模型依然容易受到恶意操控，导致意想不到的行为，通常称为「监禁漏洞」（jailbreaks）。这些漏洞通常是通过特定的文本输入触发的，被称为对抗性提示（adversarial prompts）。研究团队提出了一种新颖的生成利用攻击（generation exploitation attack），这是一种极为简单的方法，通过操控解码方法的变体来破坏模型的对齐性。

例如，当研究人员在 LLAMA2 模型中改变了采样的温度参数（temperature parameter），从 $p=0.9$ 降至 $p=0.75$ ，便成功绕过了模型的安全约束。这种简单的诱导手段揭示了当前安全评估和对齐程序的重大缺陷。

生成利用攻击：简单却致命

研究团队通过系统评估，发现利用不同的生成配置可以显著提高攻击成功率。他们在 11 个开源 LLM 上进行了实验，结果表明，攻击成功率可提高到超过 95%。这比当前最先进的攻击方法快了约 30 倍，且无需复杂的计算资源。更重要的是，研究者们强调，当前的对齐程序往往是基于默认的解码设置，而这些设置可能在稍微变化时显示出脆弱性。

例如，在对 LLAMA2-7B-CHAT 模型的攻击实验中，研究人员观察到，去除系统提示（system prompt）可以使攻击成功率从 0% 提高到 81%。这表明，系统提示在保持模型输出的对齐性方面起着至关重要的作用。

改进对齐方法的必要性

考虑到这些模型的脆弱性，研究团队提出了一种新的对齐策略，称为「生成感知对齐」（generation-aware alignment）。该策略通过主动收集在不同解码配置下生成的模型输出，以增强模型抵御生成利用攻击的能力。实验表明，这种新方法能够将攻击成功率从 95% 降低至 69%。

在与专有模型（如 ChatGPT）的比较中，研究发现开源模型的攻击成功率远高于专有模型，后者的攻击成功率仅为 7%。这突显出开源模型在安全性上的不足，尽管它们在可访问性和可扩展性方面具有优势。

未来展望

基于上述研究结果，研究团队呼吁更多的全面红队测试（red teaming）和更好的对齐方法，以确保在发布开源 LLM 之前，充分评估模型的安全性和潜在风险。未来，他们计划进一步探索生成利用攻击的转移性，以及在多模态模型中的应用。

在 AI 技术迅速发展的今天，确保模型的安全性与伦理性显得尤为重要。只有通过不断的研究和改进，我们才能在享受 AI 带来便利的同时，有效规避潜在风险。

参考文献

Huang, Y., Gupta, S., Xia, M., Li, K., Chen, D. (2024). Catastrophic Jailbreak of Open-Source LLMs via Exploiting Generation. ICLR 2024.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback.
Zou, J., et al. (2023). Adversarial prompts for large language models.
Bai, Y., et al. (2022). Aligning language models to follow instructions.
Touvron, H., et al. (2023). LLaMA: Open and efficient foundation language models.

模型的快速崛起与潜在风险

生成利用攻击：简单却致命

改进对齐方法的必要性

未来展望

参考文献

留下评论取消回复

实时焦点