博客

  • Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code[URL]Authors: Shahin Honarvar ; Mark van der Wilk ; Alastair Donaldson

    Summary: We present a method for systematically evaluating the correctness and robustness of instruction-tuned large language models (LLMs) for code generation via a new benchmark, Turbulence. Turbulence consists of a large set of natural language \textit{question templates}, each of which is a programming problem, parameterised so that it can be asked in many different forms. Each question template has an associated \textit{test oracle} that judges whether a code solution returned by an LLM is correct. Thus, from a single question template, it is possible to ask an LLM a \textit{neighbourhood} of very similar programming questions, and assess the correctness of the result returned for each question. This allows gaps in an LLM’s code generation abilities to be identified, including \textit{anomalies} where the LLM correctly solves \textit{almost all} questions in a neighbourhood but fails for particular parameter instantiations. We present experiments against five LLMs from OpenAI, Cohere and Meta, each at two temperature configurations. Our findings show that, across the board, Turbulence is able to reveal gaps in LLM reasoning ability. This goes beyond merely highlighting that LLMs sometimes produce wrong code (which is no surprise): by systematically identifying cases where LLMs are able to solve some problems in a neighbourhood but do not manage to generalise to solve the whole neighbourhood, our method is effective at highlighting \textit{robustness} issues. We present data and examples that shed light on the kinds of mistakes that LLMs make when they return incorrect code results.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文提出了一种新的方法,用于系统评估指令调整的大型语言模型(LLMs)在代码生成方面的正确性和鲁棒性。作者们创建了一个名为“Turbulence”的新基准测试,它由大量自然语言问题模板组成,每个模板都是一个编程问题,参数化以便可以以许多不同的形式提出。每个问题模板都有一个相关的测试预言机,可以判断LLM返回的代码解决方案是否正确。通过这种方法,可以从单个问题模板向LLM提出非常相似的编程问题的邻域,并评估每个问题的结果的正确性。这使得可以识别LLM代码生成能力的差距,包括LLM能够正确解决邻域中的几乎所有问题,但未能概括解决整个邻域的异常情况。作者们使用来自OpenAI、Cohere和Meta的五个LLM进行了实验,每个LLM在两种温度配置下进行评估。他们的发现表明,Turbulence能够揭示LLM推理能力的缺陷。这超越了仅仅强调LLM有时会生成错误的代码(这不是惊喜):通过系统地识别LLM能够在邻域中的一些问题上解决,但不能概括解决整个邻域的情况,他们的方法有效地突出了鲁棒性问题。作者们还提供了数据和例子,揭示了LLM返回不正确代码结果时犯的错误类型。

    Q: 有哪些相关研究?

    A: 有几项相关工作涉及到评估大型语言模型(LLMs)在代码生成方面的正确性和鲁棒性。一些研究已经创建了基准测试和编程数据集,如HumanEval、Automated Programming Progress Standard(APPS)、CodeContests、Mostly Basic Programming Problems(MBPP)、MathQA-Python、EvalPlus和CodeXGLUE,以评估LLMs在代码方面的正确性。其他研究则专注于评估LLMs的鲁棒性,例如D¨oderlein等人评估了GitHub Copilot和Codex对提示变化的敏感性,Wang等人介绍了ReCode框架以评估Python函数完成的CodeGen模型的鲁棒性。此外,还有研究调查了LLMs在代码翻译、故障定位和程序修复、提高Python代码补全质量、LLMs的可解释性、由LLMs生成的代码的自动修复以及评估指令调整的LLMs在SE任务上的性能影响。

    Q: 论文如何解决这个问题?

    A: 为了解决评估大型语言模型(LLMs)在代码生成方面的正确性和鲁棒性的问题,论文提出了一种新的方法,涉及使用相关编程问题的邻域。论文介绍了“Turbulence”,这是一个新基准测试,它由大量自然语言问题模板组成,每个模板都是一个参数化的编程问题。每个问题模板都有一个相关的测试预言机,可以判断LLM返回的代码解决方案是否正确。通过从单个问题模板向LLM提出非常相似的编程问题的邻域,可以评估每个问题的正确性结果。这使得可以识别LLM代码生成能力的差距,包括LLM能够正确解决邻域中的几乎所有问题,但未能概括解决整个邻域的异常情况。论文使用来自OpenAI、Cohere和Meta的五个LLM进行了实验,每个LLM在两种温度配置下进行评估。他们的发现表明,Turbulence能够揭示LLM推理能力的缺陷。这超越了仅仅强调LLM有时会生成错误的代码(这不是惊喜):通过系统地识别LLM能够在邻域中的一些问题上解决,但不能概括解决整个邻域的情况,论文的方法有效地突出了鲁棒性问题。论文还提供了数据和例子,揭示了LLM返回不正确代码结果时犯的错误类型。

    Q: 论文做了哪些实验?

    A: 论文使用来自OpenAI、Cohere和Meta的五个大型语言模型(LLMs)进行了实验,每个模型在两种温度配置下进行评估。具体来说,实验涉及以下步骤: 1. 使用Turbulence基准测试对LLMs进行评估,该基准测试由大量自然语言问题模板组成,每个模板都是一个参数化的编程问题。每个问题模板都有一个相关的测试预言机,可以判断LLM返回的代码解决方案是否正确。 2. 从单个问题模板向LLM提出非常相似的编程问题的邻域,并评估每个问题的正确性结果。这使得可以识别LLM代码生成能力的差距,包括LLM能够正确解决邻域中的几乎所有问题,但未能概括解决整个邻域的异常情况。 3. 分析LLMs在正确性和鲁棒性方面的性能,并将其与温度设置的变化进行比较。 4. 提供数据和例子,揭示LLM返回不正确代码结果时犯的错误类型。 论文发现,GPT-4在所有模型中表现一致优于其他模型。然而,当面临问题邻域时,所有LLMs都表现出明显的缺乏鲁棒性。降低温度到0总体上提高了所有问题的正确性分数(不包括Command模型)。然而,它也在不正确的答案中引入了更高多样性的错误。未来的研究方向包括评估量化(使用不同变体,如INT6和INT8)对LLMs代码性能的影响。此外,论文的作者们设想开发一个类似于Turbulence的基准测试,专门设计用于评估支持不完整代码片段填充的生成模型。

    Q: 有什么可以进一步探索的点?

    A: 论文提出了几个未来研究方向: 1. 评估量化对LLMs代码性能的影响:未来的工作可以探索使用不同变体的量化(如INT6和INT8)评估LLMs在代码生成任务上的表现。 2. 开发类似于Turbulence的基准测试,专门设计用于评估支持不完整代码片段填充的生成模型:未来的工作可以涉及创建一个新的基准测试,用于评估LLMs完成不完整代码片段的能力。 3. 探索LLMs推理能力的限制:论文的结果揭示了LLMs在概括解决编程问题的邻域方面的推理能力的差距。未来的工作可以更详细地研究这些差距,并试图了解LLMs推理的潜在限制。 4. 将Turbulence与其他LLMs集成:论文的结果基于评估的一组LLMs,未来的工作可以将Turbulence与其他LLMs集成,例如Google的Bard,它由Gemini Pro提供支持,作者已经请求了API访问,但仍然在等待列表中。这将允许在更大的LLMs样本上评估Turbulence。 5. 使用替代问题模板:论文使用作者设计的问题模板,而不是从互联网上汇编“现实世界”的问题,以避免训练数据偏见。未来的工作可以使用替代问题模板集进行Turbulence评估,这可能提供有关LLMs代码生成能力的其他见解。

    Q: 总结一下论文的主要内容

    A: 这篇论文介绍了一种新的方法,用于系统评估指令调整的大型语言模型(LLMs)在代码生成方面的正确性和鲁棒性。作者们创建了一个名为“Turbulence”的新基准测试,它由大量自然语言问题模板组成,每个模板都是一个编程问题,参数化以便可以以许多不同的形式提出。每个问题模板都有一个相关的测试预言机,可以判断LLM返回的代码解决方案是否正确。通过这种方法,可以从单个问题模板向LLM提出非常相似的编程问题的邻域,并评估每个问题的结果的正确性。这使得可以识别LLM代码生成能力的差距,包括LLM能够正确解决邻域中的几乎所有问题,但未能概括解决整个邻域的异常情况。作者们使用来自OpenAI、Cohere和Meta的五个LLM进行了实验,每个LLM在两种温度配置下进行评估。他们的发现表明,Turbulence能够揭示LLM推理能力的缺陷。这超越了仅仅强调LLM有时会生成错误的代码(这不是惊喜):通过系统地识别LLM能够在邻域中的一些问题上解决,但不能概括解决整个邻域的情况,他们的方法有效地突出了鲁棒性问题。作者们还提供了数据和例子,揭示了LLM返回不正确代码结果时犯的错误类型。

  • YAYI 2: Multilingual Open-Source Large Language Models

    Summary: As the latest advancements in natural language processing, large language models (LLMs) have achieved human-level language understanding and generation abilities in many real-world tasks, and even have been regarded as a potential path to the artificial general intelligence. To better facilitate research on LLMs, many open-source LLMs, such as Llama 2 and Falcon, have recently been proposed and gained comparable performances to proprietary models. However, these models are primarily designed for English scenarios and exhibit poor performances in Chinese contexts. In this technical report, we propose YAYI 2, including both base and chat models, with 30 billion parameters. YAYI 2 is pre-trained from scratch on a multilingual corpus which contains 2.65 trillion tokens filtered by our pre-training data processing pipeline. The base model is aligned with human values through supervised fine-tuning with millions of instructions and reinforcement learning from human feedback. Extensive experiments on multiple benchmarks, such as MMLU and CMMLU, consistently demonstrate that the proposed YAYI 2 outperforms other similar sized open-source models.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文提出了一种名为YAYI 2的多语言大型语言模型(LLM),旨在解决现有开源LLM在中文环境下表现不佳的问题。YAYI 2包括基础模型和聊天模型,均具有300亿参数。该模型在包含2.65万亿个标记的多语言语料库上从头开始预训练,并通过监督微调和人类反馈强化学习与人类价值观对齐。论文通过在多个基准测试上的广泛实验表明,YAYI 2在知识理解、数学推理和编程等多个方面的表现优于其他相似规模的开源模型。

    Q: 有哪些相关研究?

    A: 这篇论文中提到的相关研究包括: 1. Llama 2和Falcon:这两个模型是最近提出的开源LLM,性能可与专有模型相媲美,但主要针对英语场景。 2. BLOOM:这是第一个拥有1750亿参数的多语言LLM,基于ROOTS语料库训练。 3. Chat-GLM、Baichuan 2和Qwen:这些是基于中文的LLM,旨在解决开源模型在中文相关场景中的局限性。 4. Chat-GPT和Claude:这些是封闭源代码的代表性LLM产品,主要作为智能个人助手通过聊天界面提供服务。 5. 其他提到的研究还包括用于训练LLM的开源数据集,如RedPajama和RefinedWeb。 6. 还有关于模型架构、训练策略和优化技术的研究,如Transformer架构、RoPE位置编码方法、MQA机制、AdamW优化器等。 7. 论文还涉及到多语言分词器的开发,以及如何通过多语言数据增强模型的理解和分析能力。 8. 最后,论文还提到了关于安全性和道德性的研究,例如通过人类反馈强化学习来使模型输出更符合人类偏好和价值观。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个关键步骤解决了中文环境下开源大型语言模型表现不佳的问题: 1. **多语言预训练数据集**:收集了一个包含2.65万亿个标记的多语言语料库,其中41.5%是中文数据。这个数据集通过一个严格的预训练数据处理管道进行清洗,以提高数据质量。 2. **模型架构**:YAYI 2模型基于Transformer架构,采用仅解码器的结构,并在自动回归模式下进行训练。模型使用了FlashAttention 2和多查询注意力(MQA)机制来加速训练和推理过程。 3. **对齐人类价值观**:通过监督微调(SFT)与数百万指令输出对以及人类反馈强化学习(RLHF)来调整YAYI 2基础模型,使其更好地支持长指令和多轮对话。 4. **多语言分词器**:开发了一个高质量的多语言分词器,支持包括中文和英文在内的多种语言,以处理不同语言的数据。 5. **长文本和多轮对话处理**:通过扩展上下文窗口,YAYI 2模型增强了处理长文本和多轮对话的能力。 6. **安全性和道德性**:在预训练和微调阶段实施了数据安全协议,确保数据的完整性和合规性,防止模型学习和生成不适当的信息。 7. **评估**:在多个基准测试上评估YAYI 2模型,包括知识理解、数学推理和编程能力,并与其它相似规模的开源模型进行比较,证明了其优越性。

    Q: 论文做了哪些实验?

    A: 论文中进行了以下实验来评估YAYI 2模型的性能: 1. **知识理解评估**:在多个基准测试上进行评估,包括MMLU(多学科英语知识评估)、C-Eval(中文综合考试评估)、CMMLU(中文知识推理评估)、AGIEval(中英文知识推理评估)和GAOKAO-Bench(中文高考知识推理评估)。 2. **数学和逻辑推理评估**:在GSM8K(数学推理)、MATH(数学问题解决)和BBH(逻辑推理、常识理解和数学)等基准测试上评估模型的数学和逻辑推理能力。 3. **编程能力评估**:使用HumanEval和MBPP(Python编程问题)基准测试来评估模型的编程能力。 4. **与其它模型的比较**:将YAYI 2模型与其它相似规模的开源模型(如MPT-30B、Falcon-40B、LLaMA 2-34B、Baichuan 2-13B、Qwen-14B+72B、InternLM-20B、Aquila 2-34B和Yi-34B)在上述基准测试上进行比较。 5. **长指令和多轮对话支持**:展示了YAYI 2模型在处理长指令、多轮对话和特定领域任务方面的能力。 6. **安全性评估**:在预训练和微调阶段实施了数据安全协议,确保数据的完整性和合规性,防止模型学习和生成不适当的信息。

    Q: 有什么可以进一步探索的点?

    A: 尽管YAYI 2模型在多个方面取得了显著的性能提升,但仍有一些潜在的研究方向可以进一步探索: 1. **模型泛化能力**:尽管YAYI 2在多个基准测试上表现优异,但在更广泛的、未见过的数据集上测试其泛化能力仍然很重要。 2. **安全性和道德性改进**:持续研究和开发新的技术来减少模型生成有害内容的风险,以及更好地符合道德和法律规定。 3. **计算效率优化**:研究新的算法和硬件加速技术,以提高模型训练和推理的效率,尤其是在大规模集群上。 4. **多语言理解**:尽管YAYI 2在多语言方面取得了进展,但进一步提升模型对低资源语言和方言的理解仍然是一个挑战。 5. **长文本处理**:虽然YAYI 2通过扩展上下文窗口提高了处理长文本的能力,但进一步研究如何更有效地处理超长文档仍然是有意义的。 6. **可解释性和透明度**:提高模型决策过程的可解释性,使用户能够理解模型是如何得出特定输出的。 7. **实时应用和交互**:研究如何将YAYI 2集成到实时应用中,如聊天机器人、虚拟助手和在线客服系统,以及如何提高交互的自然性和流畅性。 8. **模型压缩和蒸馏**:探索模型压缩和蒸馏技术,以创建更小、更高效的YAYI 2版本,便于在资源受限的环境中部署。 9. **跨领域知识融合**:研究如何将YAYI 2与特定领域的知识库和数据源结合起来,以提供更专业和准确的回答。 10. **持续学习**:开发机制使YAYI 2能够持续学习和适应新信息,保持其知识的时效性和准确性。

    Q: 总结一下论文的主要内容

    A: 这篇论文介绍了YAYI 2,这是一个包含基础模型和聊天模型的多语言大型语言模型(LLM),具有300亿参数。YAYI 2在多语言语料库上从头开始预训练,并通过与人类价值观对齐的微调过程进行优化。论文的主要内容包括: 1. **多语言预训练数据集**:描述了如何收集和处理一个包含2.65万亿标记的多语言数据集,特别强调了中文内容的包含。 2. **模型架构和技术**:阐述了基于Transformer的模型架构,包括RoPE位置编码、MQA注意力机制、AdamW优化器等技术细节。 3. **对齐人类价值观**:通过监督微调和人类反馈强化学习(RLHF)来调整模型,以更好地支持长指令和多轮对话。 4. **安全性和合规性**:在预训练和微调阶段实施数据安全协议,确保数据质量和遵守法规。 5. **评估和比较**:在多个知识理解、数学推理、编程和对话能力基准测试中评估YAYI 2,并与其它类似规模的开源模型进行比较,证明了其优越性。 6. **模型能力和应用**:展示了YAYI 2在处理长文本、多轮对话和特定领域任务方面的能力。 7. **持续开发和反馈**:论文最后强调YAYI 2仍在积极开发中,并欢迎来自研究界和工业界的反馈和建议。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-05-20 09:45:49
沪ICP备2024052574号-1