标签: AGI

  • 信息检索的鲁棒性:从对抗攻击到分布外泛化

    信息检索(IR)系统是人们获取信息的重要途径。近年来,随着深度学习的快速发展,深度神经网络开始被应用于信息检索系统中,取得了显著的有效性。然而,除了有效性之外,这些神经信息检索模型也继承了神经网络固有的鲁棒性缺陷,这阻碍了它们在现实世界中的广泛应用。

    为什么要关注信息检索的鲁棒性?

    信息检索系统在实际应用中需要面对各种意想不到的情况,例如:

    • 对抗攻击: 恶意攻击者可能会利用信息检索模型的漏洞,通过修改查询或文档来操纵搜索结果,例如黑帽 SEO。
    • 分布外泛化: 信息检索模型在训练数据上表现良好,但在实际应用中可能会遇到与训练数据分布不同的数据,例如新领域数据或新类型的查询。

    为了确保信息检索系统的可靠性,研究人员开始关注信息检索模型的鲁棒性问题。

    对抗鲁棒性:防御恶意攻击

    信息检索系统面临的对抗攻击主要分为两类:

    • 检索攻击: 攻击者通过修改文档或查询来影响检索结果,例如在文档中插入恶意关键词或在查询中添加干扰词。
    • 排序攻击: 攻击者通过修改文档或查询来影响文档的排序,例如通过修改文档内容或查询语句来提升特定文档的排名。

    为了防御对抗攻击,研究人员提出了多种对抗防御方法,例如:

    • 攻击检测: 通过分析查询或文档的特征来识别潜在的攻击行为。
    • 经验防御: 通过数据增强、对抗训练等方法来提升信息检索模型的鲁棒性。
    • 理论防御: 通过证明信息检索模型在特定攻击下的鲁棒性来保证其安全性。

    分布外鲁棒性:应对数据分布变化

    信息检索系统在实际应用中会遇到与训练数据分布不同的数据,例如:

    • 新领域数据: 信息检索模型在特定领域训练,但在实际应用中需要处理其他领域的数据,例如从新闻领域切换到医疗领域。
    • 新类型查询: 信息检索模型在特定类型的查询上训练,但在实际应用中可能会遇到新的查询类型,例如从一般查询切换到问答式查询。

    为了提升信息检索模型的分布外鲁棒性,研究人员提出了多种方法,例如:

    • 数据增强: 通过生成新的数据来模拟不同的数据分布,例如使用生成模型来生成不同领域的数据。
    • 领域建模: 通过学习不同领域之间的差异来提升信息检索模型的泛化能力。
    • 模型结构修改: 通过调整信息检索模型的结构来提升其分布外鲁棒性。

    大型语言模型(LLMs)与信息检索的鲁棒性

    大型语言模型的出现为信息检索带来了新的机遇和挑战。LLMs 可以用于增强信息检索模型的鲁棒性,例如:

    • 检索增强: LLM 可以帮助信息检索模型更好地理解查询意图,从而找到更相关的文档。
    • 排序增强: LLM 可以帮助信息检索模型更好地评估文档的质量,从而提升排序结果的准确性。

    然而,LLMs 也带来了新的挑战,例如:

    • LLMs 本身的鲁棒性问题: LLM 本身也存在鲁棒性问题,例如容易受到对抗攻击的影响。
    • LLMs 与信息检索系统整合的鲁棒性问题: LLM 与信息检索系统的整合也需要考虑鲁棒性问题,例如如何确保 LLM 的输出不会影响信息检索系统的性能。

    未来方向

    信息检索的鲁棒性是一个持续的研究方向,未来还需要关注以下问题:

    • 建立统一的鲁棒性评估指标: 目前针对不同类型的鲁棒性问题,有不同的评估指标,需要建立一个统一的评估指标来系统地评估信息检索模型的鲁棒性。
    • 探索通用对抗攻击方法: 目前对抗攻击方法通常针对特定阶段的攻击,需要探索能够针对所有阶段的通用对抗攻击方法。
    • 利用 LLM 生成数据来提升分布外鲁棒性: 利用 LLM 的生成能力来生成不同领域的数据,可以有效地提升信息检索模型的分布外鲁棒性。

    参考文献

    • Wu, C., Zhang, R., Guo, J., de Rijke, M., Fan, Y., & Cheng, X. (2023). PRADA: Practical Black-Box Adversarial Attacks against Neural Ranking Models. Transactions on Information Systems, 41(4), 89.
    • Liu, Y.-A., Zhang, R., Guo, J., de Rijke, M., Fan, Y., & Cheng, X. (2023c). Black-Box Adversarial Attacks against Dense Retrieval Models: A Multi-View Contrastive Learning Method. In Proceedings of the 32nd ACM International Conference on Information & Knowledge Management (pp. 1647-1656).
    • Thakur, N., Reimers, N., Rücklé, A., Srivastava, A., & Gurevych, I. (2021). BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models. In Advances in Neural Information Processing Systems (pp. 1-12).
    • Kurland, O., & Tennenholtz, M. (2022). Competitive Search. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 1017-1026).
  • 让语言模型更懂你:Softmax Direct Preference Optimization 在推荐系统中的应用

    推荐系统旨在根据用户的偏好数据预测个性化的排名。随着语言模型(LM)的兴起,基于 LM 的推荐系统因其丰富的世界知识和强大的推理能力而受到广泛关注。大多数基于 LM 的推荐系统将历史交互转化为语言提示,将正向项目作为目标响应,并使用语言建模损失来微调 LM。然而,目前的优化目标未能充分利用偏好数据,也未针对个性化排名任务进行优化,这阻碍了基于 LM 的推荐系统的性能。

    受人类偏好对齐中直接偏好优化 (DPO) 的最新进展以及 softmax 损失在推荐中的成功的启发,我们提出了 Softmax-DPO (S-DPO) 来将排名信息灌输到 LM 中,帮助基于 LM 的推荐系统区分首选项目和负向项目,而不是仅仅关注正向项目。

    具体来说,我们将用户偏好数据中的多个负向项目纳入考虑,并设计了一个针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,该版本与 softmax 采样策略相关联。从理论上讲,我们将 S-DPO 与负采样上的 softmax 损失联系起来,发现它具有挖掘难负样本的副作用,这确保了它在推荐任务中的出色能力。从经验上讲,在三个真实世界数据集上进行的大量实验表明,S-DPO 能够有效地模拟用户偏好,并进一步提高推荐性能,同时缓解 DPO 的数据似然下降问题。

    为什么语言模型在推荐系统中表现不佳?

    现有的基于 LM 的推荐系统通常使用语言建模损失来预测下一个 token,这与推荐任务中模拟用户偏好的目标存在显著差异。大多数基于 LM 的推荐系统通过利用专门的语言提示、将协作信号作为一种新的模态纳入,或扩展 LM 的词汇表来解决推荐任务。然而,这些推荐系统通常只考虑单个正向项目,并使用语言建模损失来更新 LM 参数,忽略了负向项目在推荐中的作用,阻碍了 LM 与用户偏好的对齐。

    S-DPO 如何提升推荐效果?

    S-DPO 是一种针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,它通过整合多个负向项目来将排名信息灌输到 LM 中。S-DPO 首先利用监督微调来注入领域知识,提高 LM 遵循指令的能力,然后进入偏好对齐阶段。在偏好对齐阶段,S-DPO 将每个语言提示与正向项目和随机采样的多个负向项目配对,构建基于文本的偏好数据。

    S-DPO 的优势在于:

    • 利用多个负向项目: S-DPO 充分利用了用户偏好数据中的多个负向项目,而不是像 DPO 那样只考虑单个负向项目。这使得 S-DPO 能够更有效地学习用户偏好,并提升推荐性能。
    • 与 softmax 损失的联系: S-DPO 与负采样上的 softmax 损失密切相关,这表明 S-DPO 能够有效地进行排名优化。
    • 挖掘难负样本: S-DPO 能够挖掘难负样本,这些样本能够帮助模型更好地学习用户偏好,并提升推荐性能。

    实验结果验证 S-DPO 的有效性

    我们在三个真实世界数据集上进行了广泛的实验,结果表明 S-DPO 在 Hit Ratio@1 指标上比其他传统推荐系统和基于 LM 的推荐系统获得了显著的提升,验证了 S-DPO 的有效性。

    此外,我们还进行了消融实验,结果表明:

    • S-DPO 比仅使用单个负向项目的 DPO 性能更好,这表明多个负向项目能够提供更有效的排名梯度。
    • S-DPO 能够缓解 DPO 的数据似然下降问题,这表明 S-DPO 能够更好地学习用户偏好,并提升推荐性能。

    未来展望

    S-DPO 作为 DPO 的一种推广,为未来的基于 LM 的推荐系统提供了宝贵的见解,并有可能惠及推荐系统以外的其他研究领域。未来,我们将继续探索 S-DPO 在其他场景下的应用,并进一步研究 softmax 排名损失在 LM 中的应用。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2128 | UV: 1157
Last updated: 2025-06-21 22:20:51
沪ICP备2024052574号-1