博客

  • AutoGen:支持下一代大型语言模型应用程序

    🎯 AutoGen的目标

    随着GPT-3、GPT-4等大型语言模型的出现,它们在诸多领域都展现了强大的潜力。但是要充分发挥这些模型的能力,需要设计非常复杂的工作流程,对研发人员提出了巨大挑战😥。

    AutoGen框架的目标就是要简化大型语言模型工作流程的编排、优化和自动化。让研发人员可以更容易地构建复杂的语言模型应用💪。

    🛠 AutoGen的方法

    AutoGen提供了可自定义和可交谈的agent。研发人员只需要进行以下两步配置:

    1. 定义一组agent,指定它们的能力和角色
    2. 定义agent之间的交互行为

    整个流程就可以自动化啦!非常简单易用~

    🤖 Agent的特点

    AutoGen的Agent有以下特点:

    • 💬 可以与语言模型、人类和工具自由交互对话
    • ⚙️ 内置语言模型编码执行等功能
    • 🔧 支持引入各种外部工具、API等
    • 🧠 易于加入个性化、适应性等高级功能

    👥 Agent模式的好处

    Agent对话中心的设计模式有诸多好处:

    • 🤝 自然支持协作、反馈、调试等
    • 🎯 易于解决代码相关任务
    • ✋🏻 支持用户随时加入或退出
    • 🤝 多个专家可以协同解决复杂问题

    🎉 总结

    AutoGen为构建下一代语言模型应用提供了一个高效、简单、可扩展的框架。它展示了语言模型、人类和工具协作的巨大创新空间。希望大家在未来的科研中可以活跃运用AutoGen,创造出更多惊喜😄请大家多多提问,让我们共同进步!

  • 平衡低成本目标编辑和灾难性遗忘

    大家好,今天,我们要一起探讨的是 Microsoft Research 最近的一篇研究:大型语言模型的终身模型编辑。这篇文章讲述了如何在保持低成本的同时,进行有效的模型修正,避免模型出现灾难性的遗忘。让我们一起深入了解一下。🧐

    🎯 问题的根源

    首先,我们来看看为什么需要对大型语言模型(LLMs)进行修正。LLMs在许多复杂任务中有着广泛的应用,但它们有时会出现不可预测的错误,或者传播偏见语言。这些错误往往随着底层数据或用户行为的变化而产生。这就需要对这些模型和它们支持的实际应用进行有针对性的、成本有效的修复。

    我们可能会想到使用重复预训练或微调来实现这些修复。然而,这些解决方案通常在计算上过于昂贵。例如,LLAMA 1的训练需要在2048个A100 GPU上进行21天,其成本超过240万美元。LLMs的微调需要比许多研究实验室能够持续并负担得起的GPU更大。此外,我们甚至还不清楚应该向数据语料库添加或删除哪些数据,以便在不影响无关输入的情况下纠正特定行为。

    📝 模型编辑的提出

    为了在不进行昂贵训练的情况下保持LLMs的更新,人们最近提出了模型编辑作为对大模型进行有针对性更新的范例。大多数模型编辑器一次更新一个模型,注入一批修正。但错误通常会随时间序列性地被发现,并且必须快速纠正。换句话说,当模型被部署时,必须进行终身模型编辑,即遇到一个流的错误并必须立即对其进行处理。这需要进行许多连续的编辑,在这种设置下,现有的编辑器已知会失败。成功在这里意味着按序纠正所有的编辑,而不遗忘旧的修复,也不会降低对无关输入的性能。

    那么,什么是编辑呢?在一篇题为《带有离散键值适配器的GRACE终身模型编辑》的文章中,作者考虑了三种类型的编辑:

    1. 更新事实知识。例如,我们有一个预先训练的问答模型:我们输入问题,模型返回答案。但随着世界的变化,这些答案会过时。因此,编辑是一个包含问题(例如,“美国总统是谁?”)和问题的正确答案(例如,“拜登”)的元组或有序值序列。
    2. 跟上翻转标签。分类任务中的基础真相可能会随时间变化。如果只有特定类型的数据被重新标记,那么目标编辑就尤为重要。在这种情况下,编辑是一个配对输入(例如,法院文件)和一个新标签(例如,主题)。
    3. 缓解LLMs中的捏造和不连贯。使用LLMs的一个关键挑战是避免它们生成与现实无关的语言。因此,当它们创建出有问题的输出时,模型的编辑将包含这样的元组:一个输入(例如,一个启动语句)和一个从模型的输出中提取的错误片段(例如,一个错误的预测)。

    🧪 终身模型编辑的挑战与解决方案

    我们已经知道,错误往往会随时间序列性地被发现,并且必须快速纠正。这就需要进行许多连续的编辑,这是一项挑战。在这种情况下,现有的编辑器已知会失败。它们可能会遗忘旧的修复,或者对无关输入的性能产生影响。

    为了解决这个问题,研究者们提出了一种名为GRACE的新型模型编辑方法。这个方法采用了离散的键值适配器,能够处理连续的编辑。它能够在不遗忘旧的修复,也不会降低对无关输入的性能的情况下,按序纠正所有的编辑。

    这种方法的关键在于,它不直接更改模型的参数,而是在模型上添加一个小型的键值存储。每次编辑时,该方法都会将编辑的“键”和“值”添加到存储中。然后,在模型进行预测时,该方法会检查存储中是否存在与当前输入匹配的键。如果存在,模型就会使用存储中的值来修改其预测。

    这种方法的优势是,它能够在处理新的编辑时,保留对旧编辑的记忆,从而避免了灾难性的遗忘。此外,由于键值存储的规模远小于模型本身,因此,这种方法的计算和存储成本也相对较低。

    总结一下,大型语言模型的终身模型编辑是一个非常重要且具有挑战性的问题。这在保持模型更新,提高预测准确性,同时也降低了训练和维护的成本。通过微调、模型编辑等方法,我们可以使模型更加适应变化的世界,并为我们提供更准确、更贴近现实的预测。希望你们能从这次的讲解中有所收获,下次课我们再见!👋🏻

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-05-16 22:30:40
沪ICP备2024052574号-1