博客

YAYI2 模型
YAYI2 模型是一款开源大语言模型。它采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练[1]。YAYI2-30B 是 YAYI2 模型的一个版本，它是基于 Transformer 架构的大语言模型，参数规模为 30B。该模型通过百万级指令进行微调，并借助人类反馈强化学习方法，以更好地使模型与人类价值观对齐[2]。

以下是 YAYI2-30B 模型的一些细节：
- n_layers: 64
- n_heads: 64
- hidden_size: 7168
- vocab_size: 81920
- sequence length: 4096[2]
要使用 YAYI2-30B 模型，您需要满足以下要求：
- Python 3.8 及以上版本
- PyTorch 2.0.1 及以上版本
- 建议使用 CUDA 11.7 及以上版本
- 运行 BF16 或 FP16 模型需要至少 80GB 显存（例如 1xA100）[2]
您可以使用 Hugging Face 的 Transformers 库来快速开始使用 YAYI2-30B 模型。下面是一个快速开始的示例代码：
```
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("wenge-research/yayi2-30b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("wenge-research/yayi2-30b", device_map="auto", trust_remote_code=True)

inputs = tokenizer('The winter in Beijing is', return_tensors='pt')
inputs = inputs.to('cuda')

pred = model.generate(
    **inputs, 
    max_new_tokens=256, 
    eos_token_id=tokenizer.eos_token_id, 
    do_sample=True,
    repetition_penalty=1.2,
    temperature=0.4, 
    top_k=100, 
    top_p=0.8
)

print(tokenizer.decode(pred.cpu(), skip_special_tokens=True))
```
YAYI2-30B 模型在多个基准数据集上进行了评测，包括语言理解、学科知识、数学推理、逻辑推理和代码生成等方面的表现。与其他规模相近的开源模型相比，YAYI2-30B 模型展现出了显著的性能提升[2]。

评测结果如下（部分数据集）：
- 知识理解：80.9
- 数学：80.5
- 逻辑推理：62.0
- 代码生成：45.8[2]
请注意，使用 YAYI2-30B 模型和数据需要遵循雅意 YAYI2 模型社区许可协议。如果您希望将 YAYI2-30B 模型用于商业用途，请参考雅意 YAYI2 模型商用许可协议[2]。

Learn more:
2023 年 12 月 28 日
解析 Transformer 模型 | Way to AGI
📚 导读：在这篇博客文章中，我们将深入探讨 Transformer 模型。Transformer 是一种神经网络结构，它在自然语言处理领域取得了重大突破。我们将了解 Transformer 的工作原理，为什么它如此强大，并看看它在翻译、文本生成和其他语言任务中的应用。让我们一起来了解这个令人惊叹的模型！

大家好！在本篇文章中，我们将深入探讨一种引领自然语言处理领域的重要模型——Transformer！Transformer 模型的出现为我们实现通用人工智能（AGI）提供了新的可能性。它在翻译、文本生成和其他语言任务中表现出色，被广泛应用于各个领域。让我们一起来揭开这个神秘而强大的模型的面纱。

1. 从锤子到钉子

你是否曾经听说过这样一句话：「当你手中只有一把锤子时，所有东西看起来都像钉子。」在机器学习领域，我们似乎找到了一把神奇的「锤子」——Transformer 模型。实际上，对于 Transformer 模型而言，一切都像是钉子。它可以用于文本翻译、写诗、写文章，甚至生成计算机代码。在 Dale Markowitz 的文章中，他介绍了一些基于 Transformer 的令人惊叹的研究成果，如 AlphaFold 2、GPT-3、BERT、T5、Switch、Meena 等强大的自然语言处理模型。这些模型的功能非常强大，深受研究人员和开发者的喜爱。

2. 传统方法的局限性

在介绍 Transformer 之前，让我们先了解一下传统方法的局限性。在语言处理任务中，如翻译、文本摘要、文本生成等，长期以来都没有找到合适的方法。这一点非常不幸，因为语言是人类交流的主要方式。在 2017 年之前，我们使用深度学习模型来理解文本的方法主要是基于循环神经网络（RNN）。RNN 的工作原理是按顺序处理文本中的每个单词，然后输出相应的结果。然而，RNN 存在一些问题。

首先，RNN 很难处理冗长的文本序列，如长段落或文章。当处理到文本的结尾时，RNN 往往会忘记开头发生了什么。例如，基于 RNN 的翻译模型可能很难记住长段落主语的性别。此外，RNN 很难训练，容易受到梯度消失/爆炸问题的影响。由于 RNN 是按顺序处理单词的，因此很难实现并行化，无法充分利用硬件加速训练速度，也无法使用更多的数据进行训练。

3. Transformer 的出现

那么，当 Transformer 模型出现时，它是如何解决上述问题的呢？Transformer 是由谷歌和多伦多大学的研究人员于 2017 年开发的，最初设计用于翻译任务。与之前的循环神经网络不同，Transformer 可以高效地实现并行化处理文本序列，从而解决了 RNN 的一些问题。

4. Transformer 的工作原理

Transformer 模型的核心思想是自注意力机制（self-attention mechanism）。它允许模型在处理每个单词时，能够关注整个输入序列的其他部分。这种机制使得模型能够更好地理解单词之间的依赖关系和上下文信息。

具体而言，Transformer 模型包含了编码器（encoder）和解码器（decoder）两个部分。编码器负责将输入文本编码成一个语义表示，而解码器则将这个语义表示解码成输出文本。编码器和解码器都由多个堆叠的层组成，每个层都有自注意力机制和前馈神经网络组成。

自注意力机制的计算过程可以简单概括为以下三个步骤：
1. 计算注意力分数：为了计算第 i 个位置的注意力，模型会计算当前位置与其他所有位置的相关度分数。这些分数决定了模型在编码或解码过程中关注哪些位置的信息。
2. 计算注意力权重：通过对注意力分数进行归一化处理，得到关注每个位置的权重。这些权重决定了模型对不同位置的关注程度。
3. 加权求和：将每个位置的特征向量与对应的注意力权重相乘，并进行加权求和。这样可以将所有位置的信息整合到一个语义表示中。
通过堆叠多个编码器和解码器层，Transformer 模型能够逐渐提取更加丰富和高级的语义信息。这使得模型能够更好地理解输入文本，并生成准确和连贯的输出文本。

5. Transformer 的应用

Transformer 模型在自然语言处理领域的应用非常广泛。除了翻译任务之外，它还被用于文本生成、问答系统、情感分析、命名实体识别等各种语言处理任务中。Transformer 模型的强大性能和可扩展性使得它成为当前最先进的自然语言处理模型之一。

结语

在本文中，我们深入探讨了 Transformer 模型的工作原理和应用。作为一种新颖而强大的神经网络结构，Transformer 模型通过自注意力机制解决了传统方法的一些问题，并在自然语言处理领域取得了令人瞩目的成果。它不仅在翻译任务中表现出色，还在文本生成和其他语言任务中展现出巨大潜力。相信随着技术的不断进步，Transformer 模型将在未来的人工智能发展中发挥更加重要的作用。

感谢大家阅读本篇文章！如果你对 Transformer 模型还有任何疑问或者想要了解更多相关信息，欢迎在评论区留言。我们期待与大家继续探讨和分享关于人工智能的知识。谢谢！🤖🚀
2023 年 12 月 28 日

博客

YAYI2 模型

解析 Transformer 模型 | Way to AGI

1. 从锤子到钉子

2. 传统方法的局限性

3. Transformer 的出现

4. Transformer 的工作原理

5. Transformer 的应用

结语