博客

让人工智能向无穷无尽的流畅表达迈进 — 探索「注意力吸收器」

在我们日常的对话中，有没有想过让人工智能（AI）也能如人类一样自由流畅地进行长时间的交流？今天，我们将一同探索一种新的技术——「注意力吸收器」，它可能会引领我们走向这个目标。

为何我们需要「注意力吸收器」？

大规模语言模型（LLMs）近年来引领了聊天机器人和虚拟助手的技术进步，但是，它们也存在一些限制。这些限制主要体现在两个方面：视频随机存取内存（VRAM）的使用和流畅度的丧失。

当我们使用LLMs进行长时间的对话时，模型的VRAM使用会呈线性增长，这可能会导致设备的内存限制。另一方面，当输入的内容过长，模型的表达流畅度会明显下降，表现为生成无意义的字符，或者重复的词汇。为了解决这些问题，我们研究了一种名为「注意力吸收器」的方法。

窗口注意力：一种尝试解决方法

为了解决VRAM使用问题，我们可以尝试限制输入到LLM的令牌数量，这种方法被称为窗口注意力。

在实验中，我们将窗口大小设置为1024个令牌。结果显示，虽然这种方法可以保持内存的稳定使用，但是一旦超过窗口大小，模型的表达能力就会显著下降。

注意力吸收器：新的解决思路

2023年，Xiao等人发现，当应用窗口注意力时，模型在窗口中的第一个令牌被移除后，模型的流畅度立即下降。他们注意到，即使是语义上不重要的令牌，也会占据大量的注意力分数。他们将这些令牌称为「注意力吸收器」。

基于这个发现，他们提出了一种改进的窗口注意力方法，即在窗口中始终保留初始的四个令牌，也就是「注意力吸收器」。这种方法有效地解决了窗口注意力中的一个关键问题：当第一个令牌从窗口中移除时，模型无法将注意力分数转移到该令牌上，从而导致模型失去流畅度。

结论：注意力吸收器的威力

我们使用注意力吸收器进行了实验，结果显示，使用注意力吸收器的LLMs同时具备了稳定的空间复杂度和流畅的表达能力。这表明，使用注意力吸收器，我们的模型可以保持流畅的表达，直到我们的数据耗尽。

注意力吸收器让我们的AI更接近无穷无尽的流畅表达。尽管这仍然是一个新的领域，但我们希望这种方法能够推动AI技术的前进，为我们的日常生活带来更多的便利。

在未来，我们期待看到更多的研究者和开发者参与到这个领域中来，共同推动AI技术的发展，让我们的AI可以更好地理解我们，更好地服务我们。

2023 年 11 月 2 日
解密大型语言模型的无尽流畅性：探索”注意力汇聚”现象

欢迎来到这个探索大型语言模型（LLMs）无尽流畅性的神奇旅程。在这篇文章中，我们将研究一种新的技术策略，即”注意力汇聚”，它在Hugging Face的博客中被详细介绍。这种策略对于改进LLMs，如所有Llama、Mistral、MPT、Falcon和GPT-NeoX（Pythia）模型的性能有着重要的影响。现在，让我们一起揭开这个神秘现象的面纱！

LLMs的局限性：VRAM和流畅性问题

首先，我们需要理解LLMs在现实应用中面临的挑战。其中，最重要的两个问题是VRAM使用和流畅性的丧失。在聊天助手场景中，这意味着设备的VRAM限制将限制用户连续提问的能力。同时，所有至今为止训练过的LLMs在输入过长时都会遇到流畅性的丧失问题，这会导致模型生成的语言失去连贯性。

窗口注意力：一种尝试解决VRAM问题的方法

为了解决VRAM使用问题，我们可以尝试限制输入给LLMs的令牌数量，这就是”窗口注意力”的概念。然而，实验结果显示，这种方法并不能有效地解决问题。一旦生成的令牌数超过窗口大小，模型的复杂度会立即上升。

注意力汇聚：解决流畅性问题的新策略

好在，我们发现了一个新的解决策略：注意力汇聚。研究人员发现，在应用窗口注意力的过程中，LLMs为生成下一个令牌分配了大量的注意力分数给前几个令牌，即便这些令牌在语义上并不重要。因此，当第一个令牌从窗口中移除时，模型无法将注意力分数装载到该令牌上，导致模型「崩溃」并丧失流畅性。

为了解决这个问题，研究人员提出了一种改良的窗口注意力方法，它始终保留序列中的初始4个令牌，即注意力汇聚令牌。

注意力汇聚的实践效果

实验数据显示，使用注意力汇聚的LLMs在空间复杂性和困惑度上都表现出了稳定性。此外，按照这种方式，可以无限生成文本而不会出现模型流畅性的丧失。

结论

总的来说，注意力汇聚为我们提供了一种新的解决LLMs问题的方法：通过保留注意力汇聚令牌，我们可以避免模型在生成过程中失去流畅性，并保持恒定的VRAM使用。这种方法对于改进聊天助手、虚拟助手等基于LLMs的应用具有重要的实践价值。

2023 年 11 月 2 日

博客

让人工智能向无穷无尽的流畅表达迈进 — 探索「注意力吸收器」

为何我们需要「注意力吸收器」？

窗口注意力：一种尝试解决方法

注意力吸收器：新的解决思路

结论：注意力吸收器的威力

解密大型语言模型的无尽流畅性：探索”注意力汇聚”现象

LLMs的局限性：VRAM和流畅性问题

窗口注意力：一种尝试解决VRAM问题的方法

注意力汇聚：解决流畅性问题的新策略

注意力汇聚的实践效果

结论