博客

告别“曝光偏差”：用动态预言机提升自回归模型训练
自回归模型在自然语言处理 (NLP) 中扮演着重要角色，从序列标注到文本生成，它们都展现出强大的能力。然而，传统的训练方法，例如教师强迫和计划采样，却面临着“曝光偏差”和“指标不匹配”的挑战。

“曝光偏差”指的是模型在训练时依赖于真实序列，但在推理时只能依靠自身预测，导致模型难以纠正预测错误。“指标不匹配”则指训练过程中使用的损失函数与推理阶段采用的评估指标之间存在差异，例如训练时使用交叉熵损失，而推理时则使用 F1 分数、ROUGE 或 BLEU 等非可微指标。

DAgger 算法为解决这些问题提供了一种解决方案，它通过使用动态预言机来引导模型学习更接近专家策略的行为。然而，DAgger 算法需要针对特定指标设计动态预言机，而对于许多常见指标，例如基于跨度的 F1 分数、ROUGE 和 BLEU，现有的动态预言机算法并不存在。

本文的主要贡献在于：
- 提出了一种针对可分解指标（例如基于跨度的 F1 分数）的精确动态预言机算法，并证明了该算法具有无悔保证。
- 针对不可分解指标（例如 BLEU 和 ROUGE），提出了一种基于近似算法（例如束搜索）的动态预言机算法。
- 在命名实体识别 (NER)、机器翻译 (MT) 和文本摘要等任务上评估了这些算法，实验结果表明，使用动态预言机的 DAgger 算法在 NER 和文本摘要任务上显著优于传统的训练方法，但在机器翻译任务上表现并不稳定。
理解动态预言机

动态预言机是 DAgger 算法的核心，它扮演着“专家”的角色，根据当前模型的预测结果和真实序列，给出最优的后续预测。动态预言机可以分为两类：可分解指标的精确动态预言机和不可分解指标的近似动态预言机。

对于可分解指标，例如词错误率 (WER) 和基于跨度的 F1 分数，可以通过分解指标的计算公式，直接计算出最优的后续预测。而对于不可分解指标，例如 BLEU 和 ROUGE，由于其计算公式涉及全局特征，无法直接分解，因此需要使用近似算法，例如束搜索，来找到最优的后续预测。

针对不同指标的动态预言机设计

基于跨度的 F1 分数：本文提出了针对部分匹配 F1 分数的动态预言机算法，该算法通过判断当前预测标签和真实标签之间的关系，给出最优的后续预测标签，以最大程度地提高 F1 分数。

ROUGE 和 BLEU：由于 ROUGE 和 BLEU 属于不可分解指标，本文使用束搜索算法来近似计算动态预言机。该算法通过对一定数量的候选后续预测进行评估，选择得分最高的候选作为动态预言机的输出。

实验结果

本文在 NER、MT 和文本摘要等任务上进行了实验，结果表明：
- NER 任务：使用动态预言机的 DAgger 算法在 CoNLL-2003 和 WNUT-2017 数据集上均取得了显著的性能提升，优于教师强迫和计划采样等传统训练方法。
- MT 任务：使用动态预言机的 DAgger 算法在 IWSLT’14 Sl-En 数据集上表现并不稳定，可能与该数据集较小，BLEU 指标已经饱和有关。
- 文本摘要任务：使用动态预言机的 DAgger 算法在 CNN/Daily-Mail 数据集上取得了显著的性能提升，优于教师强迫和计划采样等传统训练方法。
未来方向

本文的研究为自回归模型的训练提供了新的思路，但仍存在一些挑战和未来研究方向：
- 预训练模型：动态预言机在微调预训练模型方面表现出色，但在从头训练模型方面表现不佳。未来可以探索如何更好地利用动态预言机来训练从头训练的模型。
- 运行时间：动态预言机算法的运行时间可能较长，尤其是对于不可分解指标的近似算法。未来可以探索如何优化算法，降低运行时间。
- 随机动态预言机：当存在多个得分相同的动态预言机时，可以随机选择其中一个作为后续预测，以增加模型的输出多样性。
- 其他指标和模型：动态预言机算法可以扩展到其他更复杂的指标，例如基于模型的指标，以及其他类型的模型，例如解码器模型。
总结

本文提出了针对自回归模型训练的动态预言机算法，并证明了其在 NER 和文本摘要任务上的有效性。该算法为解决自回归模型训练中的“曝光偏差”和“指标不匹配”问题提供了一种新的解决方案，具有重要的理论意义和实践价值。

参考文献：
- Improving Autoregressive Training with Dynamic Oracles (https://arxiv.org/html/2406.09393v1)
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决自然语言处理（NLP）中串行学习任务的自回归训练方法存在的问题，主要包括：
1. 曝光偏差（Exposure Bias）：在推理过程中，模型依赖于自身之前的预测，而不是真实的上下文信息。这导致模型在训练时没有接触到在推理时可能产生的预测错误，从而在实际应用中难以纠正这些错误。
2. 指标不匹配（Metric Mismatch）：训练过程中使用的损失函数（如交叉熵损失）与推理时使用的评估指标（如基于跨度的F1分数、ROUGE、BLEU等）之间存在不匹配，这可能导致模型在训练时优化的目标与实际评估时考虑的指标不一致。
为了解决这些问题，论文提出了使用DAgger算法结合动态预言者（Dynamic Oracles）的方法。动态预言者根据具体的评估指标定制，以提供最优的监督信号，指导模型在解码过程中对错误进行响应。论文特别针对一些常见的评估指标（如基于跨度的F1分数、ROUGE和BLEU）开发了相应的动态预言者算法，并在命名实体识别（NER）、文本摘要和机器翻译（MT）等任务上验证了算法的性能。

Q: 有哪些相关研究？

A: 论文中提到了多项相关研究，主要集中在以下几个方面：
1. DAgger算法：DAgger（Dataset Aggregation）是一种用于模仿学习的算法，它通过动态预言者（Dynamic Oracle）来引导模型策略更接近专家策略。该算法旨在减少曝光偏差，并提供无遗憾（no-regret）保证。
2. 自回归训练方法：包括教师强制（Teacher Forcing）、计划抽样（Scheduled Sampling）等，这些方法在串行生成任务中被广泛使用，但存在曝光偏差和指标不匹配的问题。
3. 动态预言者（Dynamic Oracles）：在依赖解析（Dependency Parsing）和自动语音识别（ASR）等领域，动态预言者已经被用来优化特定的评估指标，如标签附着分数（Labeled Attachment Score, LAS）和词错误率（Word Error Rate, WER）。
4. 评估指标：论文中讨论了可分解（decomposable）和不可分解（non-decomposable）的评估指标。例如，基于跨度的F1分数和ROUGE是可分解的，而BLEU分数是不可分解的。
5. 特定任务的算法：论文提出了针对特定评估指标的动态预言者算法，例如命名实体识别（NER）的partial-match F1、文本摘要的ROUGE和机器翻译（MT）的BLEU分数。
6. 其他方法：包括最小风险训练（Minimum Risk Training）、混合交叉熵损失（Mixed Cross-Entropy Loss）等，这些方法旨在解决串行生成中的曝光偏差问题。
7. 模仿学习：SEARN、LOLS和MIXER等算法通过模仿学习来改进模型性能。
8. 全局感知训练：如全局感知束搜索（Global-Aware Beam Search）和预言者强制（Seer-Forcing）算法，这些方法利用目标侧的未来信息来改进串行生成。
9. 替代损失目标：除了最大似然估计（MLE）之外，还有研究提出了其他损失函数来解决曝光偏差问题。
这些研究为论文提出的改进自回归训练方法提供了理论基础和技术支持。论文通过结合这些相关研究，开发了新的动态预言者算法，并在多个NLP任务上验证了其有效性。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决自回归训练中的问题：
1. DAgger算法：采用DAgger算法来减少曝光偏差，并提供无遗憾保证。DAgger通过在训练过程中使用动态预言者（Dynamic Oracle）来指导模型，使其在解码过程中能够更好地响应预测错误。
2. 动态预言者（Dynamic Oracles）：为特定的评估指标设计动态预言者，这些预言者能够根据模型的部分输出串行，提供最优的完成方式以最小化与真实输出的损失。动态预言者分为两类：
  - 可分解指标的精确动态预言者：对于如基于跨度的F1分数这样的可分解指标，设计了能够精确计算最优完成的算法。
  - 不可分解指标的近似动态预言者：对于如BLEU或ROUGE这样的不可分解指标，由于精确计算最优完成在计算上不可行，因此提出了基于束搜索（Beam Search）的近似算法。
3. 算法实现：
  - 对于部分匹配F1分数（Partial Match F1），论文提出了一个精确的动态预言者算法（见算法1），用于命名实体识别（NER）任务。
  - 对于ROUGE分数，论文提出了一个基于束搜索的近似动态预言者算法（见算法2），用于文本摘要任务。
  - 对于BLEU分数，论文同样采用了基于束搜索的近似动态预言者算法，用于机器翻译（MT）任务。
4. 实验验证：论文在命名实体识别（NER）、文本摘要和机器翻译（MT）三个不同的任务上进行了实验，验证了所提出的算法的有效性。实验结果表明，在NER和文本摘要任务中，使用DAgger结合动态预言者的训练方法优于传统的教师强制和计划抽样方法。然而，在机器翻译任务中，DAgger的表现并不总是优于其他基线方法。
5. 进一步分析：论文还对机器翻译任务中DAgger表现不佳的现象进行了分析，探讨了可能的原因，并提出了改进方向，例如使用更大的束宽度（beam size）和在训练早期阶段开始使用DAgger。
通过这些方法，论文成功地解决了自回归训练中的一些问题，并在多个任务上展示了所提出方法的有效性。

Q: 论文做了哪些实验？

A: 论文进行了以下实验来验证所提出方法的有效性：
1. 命名实体识别 (NER):
  - 数据集: 使用了CoNLL-2003 Shared Task的英语和德语数据集，以及WNUT 2017 Shared Task的数据集。
  - 模型: 使用了BERT和FLAIR作为基线的串行到串行（seq2seq）模型，后接RNN-LM解码器。
  - 训练方法: 对比了教师强制（Teacher Forcing）、计划抽样（Scheduled Sampling）和DAgger结合精确动态预言者（Exact Dynamic Oracle）的训练方法。
  - 评估指标: 使用部分匹配F1分数（Partial Match F1）作为评估指标。
2. 机器翻译 (MT):
  - 数据集: 使用了IWSLT’14 Sl-En数据集，包含斯洛文尼亚语-英语的并行句子。
  - 模型: 使用标准的编码器-解码器Transformer模型。
  - 训练方法: 除了教师强制和计划抽样，还考虑了最小风险训练、词级预言者和MIXER等基线方法，并与DAgger结合近似动态预言者进行比较。
  - 评估指标: 使用BLEU分数作为评估指标。
3. 文本摘要:
  - 数据集: 使用了CNN/Daily-Mail（CNNDM）基准数据集，包含新闻文章及其摘要。
  - 模型: 使用了BART模型，这是一个包含BERT风格编码器和预训练解码器（GPT-2）的编码器-解码器模型。
  - 训练方法: 对比了教师强制、计划抽样和DAgger结合近似动态预言者的训练方法，其中动态预言者使用了不同大小的束搜索（Beam Search）。
  - 评估指标: 使用ROUGE分数作为评估指标。
实验结果显示，在NER和文本摘要任务中，使用DAgger结合动态预言者的训练方法在性能上超过了传统的教师强制和计划抽样方法。然而，在机器翻译任务中，DAgger的表现并不总是优于其他基线方法。论文还对机器翻译任务中DAgger表现不佳的现象进行了进一步的分析，探讨了可能的原因，并提出了改进方向。

Q: 有什么可以进一步探索的点？

A: 论文在讨论和未来工作部分提出了一些可以进一步探索的点，包括：
1. 预训练模型的有效性：论文发现DAgger在微调预训练模型（如BERT、FLAIR和BART）时非常有效，但在从头开始训练Transformer模型时失败了。未来的工作可以探索如何提高DAgger在从头开始训练模型时的有效性。
2. 运行时优化：动态预言者的运行时间可能比教师强制训练长，特别是对于BLEU分数的计算。未来的工作可以探索如何进一步优化束搜索过程，减少计算时间。
3. 随机动态预言者：在存在多个具有相同分数的动态预言者时，可以采用随机选择的方法来进行数据增强，以促进模型产生更多样化的输出并提高泛化能力。
4. 其他评估指标和模型：论文主要关注传统的评估指标，未来的工作可以扩展到更复杂的指标，如基于模型的指标（例如BERTScore）。此外，虽然论文主要使用编码器-解码器模型，但所提出的算法也可以应用于无需编码器的解码器模型。
5. 近似动态预言者的算法：对于不可分解的指标，论文使用了近似动态预言者。未来的工作可以探索如何改进这些算法，使其更接近最优解。
6. 大规模实验：论文在相对较小的数据集上进行了实验，未来的工作可以在更大规模的数据集上验证所提出方法的可扩展性和鲁棒性。
7. 不同任务的适应性：研究DAgger和动态预言者在不同类型的串行学习任务中的适应性和性能，例如语音识别、机器翻译、文本摘要等。
8. 算法的泛化能力：探索DAgger和动态预言者算法在不同领域和语言中的泛化能力。
9. 集成学习：研究将DAgger与其他集成学习方法结合使用，以进一步提高模型性能。
10. 超参数调整：深入研究DAgger算法中超参数的选择，如束搜索的大小、开始使用DAgger训练的时机等，以找到最佳的训练策略。
这些探索点为未来的研究提供了方向，有助于进一步提高串行学习任务的性能和模型的泛化能力。

Q: 总结一下论文的主要内容

A: 这篇论文主要关注于改善自然语言处理（NLP）中串行学习任务的自回归训练方法。以下是论文的主要内容概述：
1. 问题识别：论文指出了在NLP任务中，如串行标注、文本生成等，常用的自回归训练方法（例如教师强制和计划抽样）存在曝光偏差和指标不匹配问题。
2. DAgger算法：为了解决这些问题，论文采用了DAgger算法，它通过动态预言者（Dynamic Oracle）来引导模型，以减少曝光偏差并提供无遗憾保证。
3. 动态预言者：论文提出了两种动态预言者，一种用于可分解的评估指标（如部分匹配F1），另一种用于不可分解的评估指标（如BLEU和ROUGE）。对于可分解指标，论文设计了精确的动态预言者算法；对于不可分解指标，则提出了基于束搜索的近似算法。
4. 实验验证：论文在命名实体识别（NER）、文本摘要和机器翻译（MT）任务上进行了实验，验证了所提出方法的有效性。实验结果表明，在NER和文本摘要任务中，使用DAgger结合动态预言者的训练方法优于传统的教师强制和计划抽样方法。然而，在机器翻译任务中，DAgger的表现并不总是优于其他基线方法。
5. 进一步分析：论文对机器翻译任务中DAgger表现不佳的现象进行了分析，并提出了可能的改进方向，例如使用更大的束宽度和在训练早期阶段开始使用DAgger。
6. 相关工作：论文回顾了与动态预言者相关的研究，包括依赖解析、词错误率（WER）和构成分析等领域的研究。
7. 结论与局限性：论文总结了DAgger结合动态预言者在不同任务上的表现，并讨论了其局限性，如在非可分解指标下的运行时间和近似动态预言者的优化问题。
8. 未来工作：论文提出了未来研究的方向，包括优化运行时、探索随机动态预言者、扩展到其他评估指标和模型等。
总的来说，这篇论文通过提出新的动态预言者算法，并将其与DAgger算法结合，旨在改善串行学习任务的训练过程，减少曝光偏差，并在多个NLP任务上取得了一定的实验成功。
2024 年 6 月 14 日
联邦推荐系统与基础模型：迈向个性化推荐的未来
在数字时代，信息爆炸式增长，人们迫切需要能够帮助他们筛选、过滤和个性化信息的系统。推荐系统（RS）应运而生，成为过滤在线信息的重要工具，帮助用户发现符合其偏好的产品、内容和服务。然而，传统的推荐系统严重依赖于集中式数据收集和处理，存在着巨大的隐私风险和运营瓶颈。

用户隐私的至关重要性

随着欧洲通用数据保护条例（GDPR）等严格数据保护法规的出台，人们对用户隐私的重视程度空前提高。GDPR 强调将用户数据存储在本地设备上，而不是上传到中央服务器。

联邦学习：保护用户隐私的利器

为了解决这些隐私问题，谷歌提出了联邦学习（FL）框架，该框架旨在跨分散设备训练模型，同时将数据保留在本地。FL 在客户端进行本地模型训练和在中央服务器上进行全局参数聚合之间交替进行。

联邦推荐系统：将联邦学习与推荐系统相结合

将 FL 与 RS 相结合对于保护推荐服务中的用户隐私至关重要，这催生了联邦推荐系统（FRS）的兴起。在 FRS 中，每个客户端通常代表单个用户的设备。FRS 近年来在服务提供、日常安排、驾驶规划等领域取得了令人瞩目的成果，对人们的日常生活产生了重大影响。

FRS 面临的挑战：数据异质性和稀疏性

与 FL 类似，FRS 需要将用户数据保留在本地以保护用户隐私。然而，在大多数情况下，每个客户端通常只包含一个用户访问的项目的相关数据，与整个项目集相比，数据量非常小，造成了严重的数据稀疏性问题。此外，不同的用户具有不同的行为和偏好，导致数据异质性。这两种问题的存在会导致模型次优，降低推荐效果。

基础模型：解决数据稀疏性和异质性的新方向

近年来，随着 ChatGPT 和扩散模型在语言理解和图像生成方面的显著成功，一种构建人工智能系统的新范式——基础模型（FM）引起了广泛关注。FM 通过使用自监督学习来优化训练目标，并能够通过微调或提示适应各种下游任务。

FM 的优势：强大的知识库和自适应能力

FM 通常使用来自多个来源的大量数据进行训练，能够在执行特定下游任务时整合大量额外知识，有效缓解数据稀疏性问题。此外，FM 能够捕获复杂的用户偏好和行为，并通过微调快速适应特定客户数据，从而提高本地模型的性能。

将 FM 整合到 FRS 中：迈向更强大的个性化推荐

将 FM 整合到 FRS 中，可以利用 FM 的强大知识库和自适应能力来解决 FRS 面临的数据稀疏性和异质性问题，并进一步提升用户体验。

整合 FM 的三个关键阶段
- 客户端模型更新： FM 可以通过迁移学习将从大型语料库中学习到的知识应用于本地数据，并通过微调适应特定用户行为数据，从而在数据稀疏的情况下实现良好的推荐效果。
- 通信： FM 可以利用其强大的表示能力，通过高效的数据表示和语义压缩技术，将模型更新信息压缩成更紧凑的表示，从而减少客户端和服务器之间的数据传输量。
- 全局聚合： FM 可以利用其强大的语义理解能力，根据每个参与者更新的语义和上下文关系，智能地聚合更新，并根据上下文信息为每个更新分配不同的权重，从而更准确地反映用户偏好和行为。
整合 FM 所面临的挑战
- 数据隐私和安全： FM 有可能记忆和复制训练集中的数据，从而泄露敏感信息。需要使用额外的加密技术来保护用户数据，例如差分隐私和同态加密。
- 数据稀疏性和样本不平衡： 尽管 FM 能够进行零样本和少样本学习，但仍需要优化才能处理极其稀疏的数据。需要使用数据增强技术来生成更多训练样本，或者利用来自其他领域的知识迁移来缓解数据稀疏性问题。
- 模型同步和异质性： 由于 FM 的参数数量巨大，模型同步需要大量的计算资源和时间。需要使用梯度压缩技术来减少模型同步期间传输的数据量，或者采用异步更新策略来提高同步效率。
- 模型可解释性和透明度： FM 通常被视为黑盒模型，难以理解其内部工作机制。需要使用可解释性 AI 技术来提供模型决策的透明和可理解的解释，例如注意力机制和特征重要性分析。
未来的研究方向
- 数据增强： 利用 FM 生成更多用户交互数据，缓解数据稀疏性问题。
- 冷启动推荐： 利用 FM 的强大的零样本和少样本学习能力，为冷启动用户和项目提供有效的推荐。
- 多模态推荐： 利用 FM 的多模态数据处理能力，构建更全面和多维的用户画像，从而提高推荐的个性化程度。
- 实时推荐： 利用 FM 的上下文理解能力，根据用户的实时行为和上下文数据动态地提供个性化内容。
- 增强推荐可解释性： 利用 FM 的自然语言生成能力，为用户提供清晰且连贯的推荐结果解释。
- 高级指标： 开发针对 FM 在 RS 中特定应用场景的新的评估指标，特别是针对生成式推荐。
总结

将 FRS 与 FM 相结合，能够在保护用户隐私的同时，提供更准确的个性化推荐服务，为个性化推荐的未来开辟了新的方向。未来，随着技术的不断发展，FM 在 FRS 中将发挥越来越重要的作用。

参考文献

[1] H. Ko, S. Lee, Y. Park, and A. Choi, “A survey of recommendation systems: recommendation models, techniques, and application fields,” Electronics, vol. 11, no. 1, p. 141, 2022.

[2] P. Voigt and A. Von dem Bussche, “The eu general data protection regulation (gdpr),” A Practical Guide, 1st Ed., Cham: Springer International Publishing, vol. 10, no. 3152676, pp. 10–5555, 2017.

[3] B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” in Artificial intelligence and statistics. PMLR, 2017, pp. 1273–1282.

[4] C. Zhang, Y. Xie, H. Bai, B. Yu, W. Li, and Y. Gao, “A survey on federated learning,” Knowledge-Based Systems, vol. 216, p. 106775, 2021.

[5] R. Bommasani, D. A. Hudson, E. Adeli, R. Altman, S. Arora, S. von Arx, M. S. Bernstein, J. Bohg, A. Bosselut, E. Brunskill et al., “On the opportunities and risks of foundation models,” arXiv preprint arXiv:2108.07258, 2021.

[6] Z. Li, G. Long, and T. Zhou, “Federated recommendation with additive personalization,” arXiv preprint arXiv:2301.09109, 2023.

[7] C. Zhang, G. Long, H. Guo, X. Fang, Y. Song, Z. Liu, G. Zhou, Z. Zhang, Y. Liu, and B. Yang, “Federated adaptation for foundation model-based recommendations,” arXiv preprint arXiv:2405.04840, 2024.

[8] C. Chen, X. Feng, J. Zhou, J. Yin, and X. Zheng, “Federated large language model: A position paper,” arXiv preprint arXiv:2307.08925, 2023.

[9] W. Zhuang, C. Chen, and L. Lyu, “When foundation model meets federated learning: Motivations, challenges, and future directions,” arXiv preprint arXiv:2306.15546, 2023.

[10] S. Yu, J. P. Muñoz, and A. Jannesari, “Federated foundation models: Privacy-preserving and collaborative learning for large models,” arXiv preprint arXiv:2305.11414, 2023.

[11] H. Woisetschläger, A. Isenko, S. Wang, R. Mayer, and H.-A. Jacobsen, “A survey on efficient federated learning methods for foundation model training,” arXiv preprint arXiv:2401.04472, 2024.

[12] S. Chen, G. Long, T. Shen, and J. Jiang, “Prompt federated learning for weather forecasting: Toward foundation models on meteorological data,” arXiv preprint arXiv:2301.09152, 2023.

[13] X. Li and J. Wang, “Position paper: Assessing robustness, privacy, and fairness in federated learning integrated with foundation models,” arXiv preprint arXiv:2402.01857, 2024.

[14] C. Ren, H. Yu, H. Peng, X. Tang, A. Li, Y. Gao, A. Z. Tan, B. Zhao, X. Li, Z. Li et al., “Advances and open challenges in federated learning with foundation models,” arXiv preprint arXiv:2404.15381, 2024.

[15] P. Liu, L. Zhang, and J. A. Gulla, “Pre-train, prompt, and recommendation: A comprehensive survey of language modeling paradigm adaptations in recommender systems,” Transactions of the Association for Computational Linguistics, vol. 11, pp. 1553–1571, 2023.

[16] L. Wu, Z. Zheng, Z. Qiu, H. Wang, H. Gu, T. Shen, C. Qin, C. Zhu, H. Zhu, Q. Liu et al., “A survey on large language models for recommendation,” arXiv preprint arXiv:2305.19860, 2023.

[17] L. Yang, B. Tan, V. W. Zheng, K. Chen, and Q. Yang, “Federated recommendation systems,” Federated Learning: Privacy and Incentive, pp. 225–239, 2020.

[18] Z. Alamgir, F. K. Khan, and S. Karim, “Federated recommenders: methods, challenges and future,” Cluster Computing, vol. 25, no. 6, pp. 4075–4096, 2022.

[19] D. Javeed, M. S. Saeed, P. Kumar, A. Jolfaei, S. Islam, and A. K. M. N. Islam, “Federated Learning-based Personalized Recommendation Systems: An Overview on Security and Privacy Challenges,” IEEE Transactions on Consumer Electronics, pp. 1–1, 2024.

[20] Z. Sun, Y. Xu, Y. Liu, W. He, L. Kong, F. Wu, Y. Jiang, and L. Cui, “A survey on federated recommendation systems,” IEEE Transactions on Neural Networks and Learning Systems, 2024.

[21] C. Zhang, G. Long, T. Zhou, P. Yan, Z. Zhang, C. Zhang, and B. Yang, “Dual personalization on federated recommendation,” in Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023, pp. 4558–4566.

[22] Z. Li, G. Long, and T. Zhou, “Federated recommendation with additive personalization,” in The Twelfth International Conference on Learning Representations, 2024. [Online]. Available: https://openreview.net/forum?id=xkXdE81mOK

[23] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[24] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.

[25] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16×16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.

[26] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell et al., “Language models are few-shot learners,” Advances in neural information processing systems, vol. 33, pp. 1877–1901, 2020.

[27] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.

[28] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” Advances in neural information processing systems, vol. 33, pp. 6840–6851, 2020.

[29] J. Ho, C. Saharia, W. Chan, D. J. Fleet, M. Norouzi, and T. Salimans, “Cascaded diffusion models for high fidelity image generation,” Journal of Machine Learning Research, vol. 23, no. 47, pp. 1–33, 2022.

[30] C. Saharia, W. Chan, H. Chang, C. Lee, J. Ho, T. Salimans, D. Fleet, and M. Norouzi, “Palette: Image-to-image diffusion models,” in ACM SIGGRAPH 2022 conference proceedings, 2022, pp. 1–10.

[31] Y. Wang, J. Zhang, and Y. Wang, “Do generated data always help contrastive learning?” arXiv preprint arXiv:2403.12448, 2024.

[32] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar et al., “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023.

[33] M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby et al., “Dinov2: Learning robust visual features without supervision,” arXiv preprint arXiv:2304.07193, 2023.

[34] A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo et al., “Segment anything,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 4015–4026.

[35] X. Wang, X. Zhang, Y. Cao, W. Wang, C. Shen, and T. Huang, “Seggpt: Segmenting everything in context,” arXiv preprint arXiv:2304.03284, 2023.
2024 年 6 月 14 日

博客

告别“曝光偏差”：用动态预言机提升自回归模型训练

理解动态预言机

针对不同指标的动态预言机设计

实验结果

未来方向

总结

联邦推荐系统与基础模型：迈向个性化推荐的未来