博客

告别选择题：Open-LLM-Leaderboard 为大型语言模型开启新纪元
大型语言模型（LLM）正在迅速改变我们的世界，从文本生成到翻译、摘要、代码生成，甚至聊天互动，它们展现出惊人的能力。然而，如何准确评估这些模型的真实实力，成了一个至关重要的问题。

传统的评估方法通常使用多选题（MCQ）。模型被要求从多个选项中选择最合适的答案。然而，这种方法存在着明显的缺陷：
- 选择偏差: 模型可能会倾向于选择特定位置的选项，例如“选项A”，因为训练数据中存在着对特定选项ID的先验概率偏差。
- 随机猜测: 对于那些规模较小的LLM，它们可能无法真正理解问题，而是通过随机猜测来获得正确答案。
为了解决这些问题，Open-LLM-Leaderboard应运而生。它利用开放式问题（OSQ）来评估LLM的能力，彻底摆脱了选择偏差和随机猜测的影响。开放式问题要求模型生成一个完整的答案，而不是从预设选项中选择。

Open-LLM-Leaderboard：从MCQ到OSQ的进化

Open-LLM-Leaderboard面临着两大挑战：
1. 如何从MCQ中筛选出适合转化为OSQ的问题？
2. 如何验证LLM对OSQ的答案是否正确？
为了解决第一个挑战，研究人员设计了一个自动筛选流程，将MCQ数据集分为可转化和不可转化两类。通过多阶段过滤，他们最终确定了23,839个适合转化为OSQ的问题。

对于第二个挑战，研究人员设计了一个特定任务的提示，并利用GPT-4来判断LLM生成的答案是否正确。他们还通过人工验证，确保了自动评估策略的可靠性。

OSQ-bench：一个开放式问题的基准

Open-LLM-Leaderboard使用了名为OSQ-bench的开放式问题基准，该基准包含来自9个不同数据集的42,000个问题，涵盖了各种领域，例如文学、常识推理、医学、科学等。

OSQ-bench具有以下特点：
- 多样性: 涵盖了不同类型的开放式问题，例如填空、简答、解释等。
- 高质量: 经过严格的筛选，确保每个问题都适合用开放式方式回答。
Open-LLM-Leaderboard：一个公平的竞技场

Open-LLM-Leaderboard对不同规模的LLM进行了评估，包括GPT-4o、GPT-4、Claude-3 Opus、Gemini Pro、Mistral-Large等大型模型，以及Qwen1.5、Gemma、SlimPajama-DC等小型模型。

评估结果显示：
- GPT-4o在OSQ方面表现出色，成为目前最强大的LLM。
- 小型模型在OSQ方面表现较差，但Qwen1.5的表现相对突出。
告别选择题，拥抱开放式未来

Open-LLM-Leaderboard为LLM评估开辟了新的道路，它不仅能更准确地评估LLM的能力，还能促进LLM在更广泛的领域得到应用。

参考文献:
- Myrzakhan, A., Bsharat, S. M., & Shen, Z. (2024). Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena. arXiv preprint arXiv:2401.00000.
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何改进对大型语言模型（LLMs）的评估方法。具体来说，论文指出了现有评估方法中存在的两个主要问题：
1. 选择偏差（Selection Bias）：在多项选择题（MCQ）中，LLMs可能会因为先前训练数据中某些选项ID（如A/B/C/D）的不平衡概率而倾向于选择特定的答案选项。这种内在偏差会影响模型基于这些ID预测答案的结果。
2. 随机猜测问题：在MCQ中，即使是小规模的LLMs也有可能仅通过随机猜测就得到正确答案，这并不能真正反映模型的实际能力。
为了根本解决这些问题，论文提出了一种更彻底的方法，即从MCQ转变为开放式问题（open-style questions），这可以消除选择偏差和随机猜测的问题。然而，这种转变带来了两个新的挑战：
1. 如何识别适合从MCQ转换为开放式问题的问题。
2. 如何验证LLM开放式回答的正确性，特别是与人类标注的基准答案相比较。
论文的目标是通过建立一个全新的基于完全开放式问题的LLM评估基准，来解决这些挑战，并引入了Open-LLM-Leaderboard来跟踪不同LLMs的性能并反映它们的真实能力。

Q: 有哪些相关研究？

A: 相关研究主要集中在以下几个方面：
1. 大型语言模型（LLMs）的发展：例如GPT-3和GPT-4等模型在自然语言处理领域的影响和应用，这些模型在文本生成、翻译、摘要、代码生成和聊天机器人交互等任务中表现出色。
2. 多项选择题（MCQ）作为评估工具：MCQ在评估和提升LLMs能力方面变得至关重要，相关数据集如MMLU、HellaSwag和ARC等，它们评估广泛的知识和常识推理，帮助基准测试LLMs在不同领域的理解、推理和知识应用能力。
3. LLMs中的偏差问题：特别是选择偏差，由于LLMs在评估MCQ时可能倾向于选择某些答案选项，这可能导致评估结果偏斜，不能准确反映模型的真实理解和推理能力。
4. 开放式问题的定义和评估：开放式问题要求模型生成不受预设选项限制的答案，这要求模型具有更深入的理解力和生成信息性、不受限制的回答的能力。
5. 自动转换MCQ为开放式问题：研究提出了多阶段过滤方法，通过自定义提示和评分系统来识别适合转换的问题，并对这些问题进行分类和转换。
6. 开放式问题答案的正确性评估：设计了特定的提示和使用GPT-4等模型来验证LLM生成的开放式答案的正确性。
7. 开放式问题基准（OSQ-bench）：创建了一个包含多个数据集的基准，用于评估LLMs在开放式问题上的表现。
8. 模型性能比较：对不同规模的LLMs在多个数据集上的表现进行了评估和比较，包括GPT-4系列、Claude-3 Opus、Mistral Large等。
这些研究为开发新的评估框架和基准提供了理论和实践基础，有助于更准确地评估和比较LLMs的性能。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决上述问题：
1. 定义开放式问题（Open-style Questions）：
  - 开放式问题要求模型生成一个不受预设选项限制的答案，这有助于评估模型的生成能力、理解上下文的能力以及处理复杂任务的能力。
2. 自动转换MCQ为开放式问题：
  - 设计了一个多阶段过滤方法，包括初步的二元分类筛选，以确定哪些问题适合转换为开放式问题。
  - 使用信心评分（1到10的范围）进一步评估问题的适合度，以确保只有那些足够清晰、可以独立于选项回答的问题被转换。
3. 开放式问题答案的评估：
  - 为了评估LLM生成的开放式答案的正确性，设计了一个定制化的提示，使用正确的MCQ答案作为基准来验证开放式答案。
4. 建立开放式问题基准（OSQ-bench）：
  - 从多个数据集中筛选并构建了一个包含42K问题的开放式问题基准，涵盖了不同的领域和问题类型。
5. 多样性和质量分析：
  - 对基准中的问题进行了分类，以确保多样性，并分析了问题的长度和复杂性。
6. 性能评估和排行榜：
  - 对多个LLMs在开放式问题上的表现进行了评估，并与多项选择题的表现进行了比较，建立了一个新的排行榜来跟踪和展示不同LLMs的性能。
7. 实验和分析：
  - 对不同规模的LLMs在多个数据集上的表现进行了实验，分析了它们在开放式问题上的准确性，并与MCQ的表现进行了对比。
8. 建立信任度：
  - 通过与人类评估者的结果进行比较，使用Cohen’s kappa统计量来验证自动评估策略的可靠性。
通过这些方法，论文成功地建立了一个新的评估基准和排行榜，用于更准确地评估和比较LLMs在开放式问题上的性能。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估和比较不同大型语言模型（LLMs）在开放式问题（Open-Style Questions, OSQ）上的表现。以下是实验的主要步骤和发现：
1. 模型选择：
  - 选择了不同规模的LLMs，包括大规模模型（如GPT-4o, GPT-4, Claude-3 Opus等）和小规模模型（如Qwen1.5, Gemma等）。
2. 数据集：
  - 使用了多个数据集，包括MMLU, ARC, MedMCQA, PIQA, CommonsenseQA, Race, OpenbookQA, HellaSwag和WinoGrande，这些数据集覆盖了广泛的领域和任务。
3. 评估方法：
  - 对于多项选择题（MCQ），使用OpenAI Evals框架进行评估，直接比较生成的响应与正确答案ID。
  - 对于开放式问题，使用GPT-4模型来确定LLMs生成的回答是否正确，相对于数据集中的预设正确答案。
4. 结果分析：
  - 发现所有模型在OSQ上的准确率都显著低于MCQ。平均来看，OSQ的准确率比MCQ低约25%。
5. 性能比较：
  - 对比了不同模型在不同数据集上的表现，发现GPT-4o在OSQ任务上的整体表现最好，准确率达到70.15%。
6. 排行榜和竞技场：
  - 建立了一个基于OSQ表现的模型排行榜，展示了各模型在不同数据集上的表现。
7. 误差分析：
  - 对初步过滤结果进行了手动错误分析，选择了100个被分类为“YES”和“NO”池中的问题进行评估。
8. 可靠性验证：
  - 对自动评估策略的准确性进行了验证，通过随机抽取100个结果并与人类评估者的结果进行比较，使用Cohen’s kappa统计量得出了0.83的高一致性得分。
9. 多样性和分布分析：
  - 对基准中的问题进行了分类和分析，以确保多样性，并探讨了问题长度的分布。
这些实验为评估LLMs提供了一个更深入的理解，并展示了开放式问题在评估模型能力方面的优势。通过这些实验，论文证明了其提出的评估方法的有效性和可靠性。

Q: 有什么可以进一步探索的点？

A: 尽管论文提出了一种新的评估方法和基准，但仍有一些潜在的点可以进一步探索：
1. 评估指标的多样性：目前的评估主要依赖于答案的准确性。未来的研究可以探索更多的评估指标，比如答案的相关性、创造性、深度和自然性。
2. 上下文理解的评估：开放式问题可能需要对上下文的深入理解。研究可以进一步探索如何评估LLMs在理解和应用上下文信息方面的能力。
3. 跨领域性能的比较：研究可以进一步探索LLMs在不同领域（如科学、技术、艺术等）的性能，以及它们如何处理跨学科的问题。
4. 模型的可解释性：在评估LLMs时，理解模型是如何生成答案的同样重要。未来的工作可以集中在提高模型的可解释性，帮助用户理解模型的决策过程。
5. 模型的鲁棒性测试：评估模型在面对错误信息、歧义或模糊问题时的表现，以及它们如何适应和处理这些情况。
6. 实时评估和反馈：开发实时评估系统，可以在模型生成答案的同时提供反馈，帮助模型学习和改进。
7. 用户研究和人机交互：研究用户如何与基于LLMs的系统交互，以及如何设计更直观、更有效的用户界面。
8. 多模型集成和比较：探索如何结合多个模型的优势，以及如何比较不同模型在特定任务上的表现。
9. 长期跟踪和评估：随着LLMs的快速发展，长期跟踪和评估模型的性能变化，以及它们如何应对新的挑战和任务。
10. 伦理和社会影响：研究LLMs在社会中的作用，包括它们可能带来的偏见、滥用问题，以及如何确保它们的使用符合伦理标准。
11. 可扩展性和效率：研究如何提高评估过程的可扩展性和效率，特别是在处理大规模数据集和复杂模型时。
12. 国际化和多语言支持：探索LLMs在不同语言和文化中的表现，以及如何改进它们对非英语语言的支持。
这些探索点可以帮助研究者更全面地理解和改进LLMs的性能，以及它们在实际应用中的潜力和限制。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以概括为以下几个要点：
1. 问题识别：论文指出了使用多项选择题（MCQ）评估大型语言模型（LLMs）时存在的问题，包括选择偏差和随机猜测问题。
2. 开放式问题提出：为了根本解决这些问题，论文提出了使用开放式问题作为评估LLMs的新方法。
3. 评估基准建立：论文建立了一个新的评估基准，名为Open-LLM-Leaderboard，通过完全开放式问题来跟踪和反映不同LLMs的性能。
4. 数据集和方法：介绍了如何从现有的MCQ数据集中筛选和转换问题，以创建适合开放式回答的数据集（OSQ-bench）。
5. 评估策略：论文设计了一种自动评估策略，使用特定的提示和LLMs（如GPT-4）来验证开放式问题答案的正确性。
6. 实验设计：进行了实验，评估了不同规模的LLMs在多个数据集上的性能，并与MCQ的表现进行了比较。
7. 结果分析：发现所有模型在开放式问题上的准确率都显著低于多项选择题，这可能反映了模型在处理开放式问题时的真实能力。
8. 排行榜创建：基于实验结果，创建了一个新的排行榜，展示了各模型在开放式问题上的表现。
9. 可靠性验证：通过与人类评估者的比较，验证了自动评估策略的可靠性。
10. 讨论与未来工作：论文讨论了Open-LLM-Leaderboard的优势和潜在局限性，并提出了未来可能的研究方向。
11. 伦理和隐私：论文最后讨论了使用公共数据集和问题答案对用户隐私的最小影响。
论文通过提出新的评估方法和基准，为更准确、更全面地评估LLMs提供了一种新的视角，并为未来的研究和应用奠定了基础。
2024 年 6 月 12 日
解码AI的“黑箱”：大型语言模型的“思考”之旅
我们常常惊叹于人工智能模型的强大能力，却对其内部运作机制知之甚少。想象一下，如果能看到机器内部的运作机制，观察齿轮的转动，那将是多么奇妙的一件事！Anthropic 公司的一篇最新研究论文，名为“Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”，就让我们有机会一窥人工智能的“内心世界”。

AI的“思维”：单义性与稀疏自动编码器

这篇论文的作者，包括 Adly Templeton、Tom Conerly 和 Jonathan Marcus 等，致力于让 AI 模型更加透明。他们以 Claude 3 Sonnet 为研究对象，这是一个中等规模的 AI 模型，目标是提升模型的“单义性”（monosemanticity）。

简单来说，单义性就像一个巨大的建筑物，每个锁都对应着一把独特的钥匙。AI 模型就好比这座建筑，每个特征或概念就像一把锁。单义性意味着每把钥匙都只对应一把锁，保证了每次使用同一把钥匙时，都能打开同一把锁。这种一致性让我们能够准确地理解模型在做出决策时所思考的内容，因为我们清楚地知道哪把钥匙打开了哪把锁。

为了实现单义性，研究人员使用了“稀疏自动编码器”（Sparse Autoencoders）。它就像一位高效的侦探，在杂乱无章的数据中找到最关键的线索，帮助我们理解 AI 模型内部的运作机制。

解码AI的“思维”：特征解读

研究人员通过稀疏自动编码器，从 Claude 3 Sonnet 模型中提取了各种各样的特征，包括抽象概念和具体概念。这些特征为我们理解模型的内部运作机制和决策模式提供了宝贵的线索。

抽象特征：这些特征代表了模型理解和使用的高级概念，例如情绪、意图，以及更广泛的类别，如科学或技术。

具体特征：这些特征更加具体和可感知，例如著名人物的名字、地理位置或特定物体。这些特征可以与现实世界中的实体直接关联。

例如，模型中存在一些特征，会在文本中提到阿尔伯特·爱因斯坦或他的物理学工作时被激活。这个特征帮助模型建立联系，并生成与爱因斯坦相关的上下文信息。

类似地，也有一些特征会对城市、国家和其他地理实体的引用做出反应。例如，当文本中提到埃菲尔铁塔、法国文化或发生在巴黎的事件时，与“巴黎”相关的特征可能会被激活。这有助于模型理解并对有关这些地方的讨论进行上下文化。

模型还可以识别和激活与代码或系统安全漏洞相关的特征。例如，可能存在一个特征可以识别“缓冲区溢出”或“SQL 注入”的提及，这些是软件开发中常见的安全问题。这种能力对于涉及网络安全的应用至关重要，因为它允许模型检测和突出潜在风险。

AI安全：识别偏见和欺骗行为

除了理解模型的“思维”过程，这项研究还关注 AI 安全问题。研究人员发现，模型中也存在与偏见和欺骗行为相关的特征。例如，模型可能存在识别种族、性别或其他形式的偏见的特征。通过理解这些特征，开发者可以努力减轻偏见输出，确保 AI 行为更加公平公正。

深入探究：数学基础

稀疏自动编码器模型的核心数学原理对于理解它如何将激活分解为可解释的特征至关重要。

编码器

编码器使用学习到的线性变换，然后是 ReLU 非线性函数，将输入激活变换到更高维空间。这可以表示为：
```
f^enc(x) = ReLU(W^enc x + b^enc)
```
其中， $W^enc$ 和 $b^enc$ 是编码器权重和偏差， $f_i(x)$ 表示特征 $i$ 的激活。

解码器

解码器尝试使用另一个线性变换从特征中重建原始激活：
```
f^dec(x) = W^dec f^enc(x) + b^dec
```
其中， $W^dec$ 和 $b^dec$ 是解码器权重和偏差。 $f_i(x)W^dec$ 表示特征 $i$ 对重建的贡献。

损失函数

模型经过训练以最小化重建误差和稀疏性惩罚的组合：
```
L(x, f^dec(x)) = ||x - f^dec(x)||_2^2 + λ ||f^enc(x)||_1
```
此损失函数确保重建是准确的（最小化误差的 L2 范数），同时保持活动特征的数量较低（由具有系数 λ 的 L1 正则化项强制执行）。

展望未来：更安全、更可靠的AI

这项研究在理解和解释 Claude 3 Sonnet 模型的内部运作机制方面取得了重大进展。

研究成功地从 Claude 3 Sonnet 中提取了抽象和具体特征，使 AI 的决策过程更加透明。例如，模型中存在关于著名人物、城市和安全漏洞的特征。

研究还识别了与 AI 安全相关的特征，例如检测安全漏洞、偏见和欺骗行为。理解这些特征对于开发更安全、更可靠的 AI 系统至关重要。

可解释的 AI 特征的重要性不言而喻。它们增强了我们调试、改进和优化 AI 模型的能力，从而提高模型的性能和可靠性。此外，它们对于确保 AI 系统以透明的方式运行并与人类价值观相一致至关重要，尤其是在安全和伦理方面。

参考文献
- Anthropic. Adly Templeton et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, 2024.
- Ng, Andrew. “Autoencoders: Overview and Applications.” Lecture Notes, Stanford University.
- Anthropic. “Core Views on AI Safety.” Anthropic Safety Guidelines, 2024.
这个公式 ( f^{enc}(x) = \text{ReLU}(W^{enc} x + b^{enc}) ) 是一个用于描述稀疏自编码器（Sparse Autoencoder）编码器部分的数学表达式。让我们逐步解析这个公式的含义：

符号解释
1. ( x )：输入数据，通常是一个向量，表示模型接收到的原始数据。
2. ( W^{enc} )：编码器的权重矩阵。它将输入数据从其原始空间映射到一个新的高维空间。
3. ( b^{enc} )：编码器的偏置向量。它为每个映射添加一个固定的偏移量。
4. ( \text{ReLU} )：激活函数，表示“Rectified Linear Unit”（修正线性单元）。它的作用是将输入中的负值归零，正值保持不变，数学表达式为：
  [
  \text{ReLU}(z) = \max(0, z)
  ]
5. ( f^{enc}(x) )：编码器的输出，表示输入数据在经过编码器处理后的表示。
公式解析

[
f^{enc}(x) = \text{ReLU}(W^{enc} x + b^{enc})
]
1. 线性变换：首先，输入向量 ( x ) 通过矩阵乘法 ( W^{enc} x ) 进行线性变换。这一步将输入数据从原始空间映射到一个新的高维空间。
2. 加偏置：然后，加上偏置向量 ( b^{enc} )。这一步是为了调整每个新特征的值，使其更加灵活和适应数据。
3. 激活函数：最后，应用 ReLU 激活函数。这一步将所有负值归零，仅保留正值。这一步的目的是引入非线性，使模型能够更好地捕捉复杂数据的特征。
作用

这个公式的主要作用是将输入数据 ( x ) 转换为一个新的表示 ( f^{enc}(x) )，其中包含了输入数据的关键特征。通过这种转换，稀疏自编码器能够有效地提取输入数据的核心信息，为后续的解码和重建过程提供基础。

稀疏自编码器中的编码器部分使用这种结构，旨在通过稀疏激活（即大多数输出为零，仅少数输出为非零）来捕捉输入数据的最重要特征，从而简化和优化数据表示。
2024 年 6 月 12 日