博客

用注意力机制提升文本匹配：FA 和 SFA 模块详解

在信息爆炸的时代，文本匹配技术在各种应用中发挥着重要作用，例如搜索引擎、问答系统和推荐系统等。轻量级文本匹配模型因其参数量小、推理速度快等优点而受到关注。然而，如何在轻量级模型中有效地捕获文本的语义信息一直是一个挑战。

这篇博客文章将介绍两种新的注意力机制模块：特征注意力 (FA) 和选择性特征注意力 (SFA)，它们可以帮助轻量级模型更好地理解文本的语义信息，从而提高文本匹配的准确率。

1. 问题定义

轻量级文本匹配模型通常使用孪生网络结构，该结构将两个文本编码成向量，然后比较这两个向量之间的相似度。然而，这种方法忽略了文本中嵌入特征之间的复杂关系。

FA 和 SFA 模块旨在解决这一问题，它们可以帮助模型更好地捕获嵌入特征之间的依赖关系，从而提高文本匹配的准确率。

2. FA 模块

FA 模块采用了一种叫做「挤压-激励」的技术，它可以动态调整对个体特征的强调，使网络更关注对分类有重要贡献的特征。

具体来说，FA 模块首先使用平均池化将特征图压缩成一个特征描述符，然后通过全连接层生成一个激活向量，该向量指示了对最终分类有显著贡献的特征。最后，通过元素级乘法将激活向量与原始特征相乘，以生成一个更加精细调整的嵌入特征表示。

3. SFA 模块

SFA 模块在 FA 的基础上，引入了选择性特征注意力机制。该机制使用堆叠的 BiGRU Inception 结构，以实现多尺度语义提取，并通过「选择」机制动态集中注意力。

具体来说，SFA 模块首先通过一个瓶颈结构降低特征维度，然后通过 N 层堆叠的 BiGRU 捕获每一层的语义表示，实现了特征的「分裂与融合」。

在「挤压-激励」阶段，SFA 模块使用全局平均池化和全局最大池化来压缩信息，并使用全连接层来激活特征。

「选择」阶段通过向量级 softmax 归一化来适应性地加权不同分支的特征，生成每个分支的加权和表示，从而实现对不同抽象层次上语义信息和嵌入特征的动态聚焦。

4. 实验评估

在多个文本匹配基准数据集上进行的实验表明，FA 和 SFA 模块可以有效地提高文本匹配的准确率。此外，SFA 模块的「选择」机制还可以有效管理不同尺度语义提取的梯度流动，从而提高训练稳定性和模型性能。

5. 未来工作

未来的研究方向包括将 FA 和 SFA 模块应用于其他 NLP 任务，优化计算效率，提高模型的可解释性，以及测试和改进它们在不同语言和不同领域数据集上的泛化能力。

6. 总结

FA 和 SFA 模块为轻量级文本匹配任务提供了一种新的嵌入特征依赖性建模方法，并实验评估表明，它们能够有效地提高文本匹配性能。未来，我们将继续探索 FA 和 SFA 模块在其他 NLP 任务中的应用，并进一步提高它们的性能和可解释性。

2024 年 4 月 26 日
PRETTY: 一种无需训练的跨语言大型语言模型对齐方法
大型语言模型（Large Language Models, LLMs）在自然语言处理领域取得了巨大成功。然而,如何使LLM的输出与特定偏好相一致仍然是一个挑战。监督式微调（Supervised Fine-Tuning, SFT）是一种直接的方法,但其对齐的深度受到质疑。在跨语言生成任务中,非英语数据的稀缺性和获取成本进一步限制了SFT的应用。

最近,一篇名为”PRETTY: Prefix Text as a Yarn for Training-free Alignment of Foundation Language Models”的论文提出了一种创新的训练自由对齐方法,旨在解决这些问题。本文将深入探讨PRETTY方法的原理、实验验证及其潜在影响。

SFT的局限性

SFT通过在特定任务上微调预训练的LLM,使其输出与期望的偏好相一致。然而,一些研究质疑SFT实现的对齐可能只是表面的,没有真正深入到模型的知识体系中。

此外,论文指出SFT在跨语言生成任务中的有效性可能受到其对先前token的依赖的限制。这种依赖性可能阻碍了SFT在目标语言中激发特定任务生成的能力。

PRETTY方法

针对上述问题,论文提出了PRETTY（Prefix Text as a Yarn）方法。其核心思想是使用最少的任务相关先验token来桥接基础LLM和SFT LLM,从而在无需训练的情况下实现与SFT相当的性能。

PRETTY方法的关键在于构建高质量的先验token。论文提出了三种策略:
1. SFT Prior:使用SFT模型生成的前几个token作为先验token。
2. Refined Prior:使用较小的下游任务训练模型的输出token作为先验token。
3. Pseudo Prior:对于极低资源语言对,使用双语词典创建伪标签作为先验token。
通过在输入中添加这些先验token,PRETTY方法能够引导基础LLM进行跨语言生成,实现对齐而无需额外的训练。

实验验证

论文在机器翻译、跨语言摘要和非英语词性标注（POS）任务上对PRETTY方法进行了全面的实验验证。实验涵盖了八种不同语言,展示了该方法在不同资源可用性水平下的有效性。

结果表明,通过仅添加一两个先验token,基础LLM就能达到与SFT模型相当的性能。这证明了PRETTY方法作为一种成本效益高的SFT替代方案的潜力。

意义与展望

PRETTY方法为推进多语言LLM的民主化提供了新的视角。它降低了对大量标注数据和计算资源的依赖,使得在资源有限的情况下也能实现高质量的跨语言对齐。

未来的研究方向包括将PRETTY扩展到更多的对齐场景,如通过人类反馈进行强化学习,以及进一步优化先验token的生成策略。此外,还需要探索如何减轻SFT过程中可能出现的灾难性遗忘问题。

小结

PRETTY方法通过引入最少的任务相关先验token,提供了一种简单而有效的LLM跨语言对齐方案。它突破了SFT的局限性,降低了对训练资源的依赖,为发展更加普惠的多语言LLM铺平了道路。随着研究的深入,PRETTY有望在更广泛的任务和语言中得到应用,推动自然语言处理技术造福全球用户。
2024 年 4 月 26 日

博客

用注意力机制提升文本匹配：FA 和 SFA 模块详解

1. 问题定义

2. FA 模块

3. SFA 模块

4. 实验评估

5. 未来工作

6. 总结

PRETTY: 一种无需训练的跨语言大型语言模型对齐方法

SFT的局限性

PRETTY方法

实验验证

意义与展望

小结