分类: AGI

  • 大型语言模型是上下文语义推理器,而不是 符号推理者

    大规模语言模型(LLM)的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用,但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中,我们假设在推理过程中,所学语言标记的 \\textit{语义} 承担了最繁重的工作。与人类的符号推理过程不同,LLM的语义表示可以在标记之间建立强烈的联系,从而组成一个肤浅的逻辑链。为了测试我们的假设,我们从语言推理过程中解耦语义,并评估三种推理能力,即演绎、归纳和溯因。我们的发现揭示了语义在LLM的上下文推理中起着关键作用 — 当语义与常识一致时,LLM的表现要好得多,但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代LLM是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力,并激励研究揭示黑盒LLM中存在的魔力。总的来说,我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。


    Introduction

    • 近年来,大型语言模型(LLMs)已经在各种自然语言任务中取得了显著的性能,包括问答、文本摘要、机器翻译、逻辑推理等。这些成功主要归功于 LLMs 能够利用“零次”或“几次”学习方法而无需任何梯度更新 – 任务描述或几个例子来引导其推理过程 [1][2][3][4]。一个典型的例子是“链式思维”(CoT)方法,涉及推理演示或简单的提示,例如“让我们一步一步地思考”来执行复杂推理任务 [5,6]。尽管 LLMs 具有强大的上下文学习能力,但它们在给定上下文中的运作机制仍不清楚。先前的研究调查了给定示例中哪些方面有助于最终任务绩效,包括地面真实标签和示例顺序 [7][8][9]。另一条线的工作重点在于解释和利用上下文学习(ICL)机制 [10][11][12][13]。然而,它们共同的基本问题是,它们输入的上下文提示是基于自然语言查询来探究 LLMs 的推理能力。根据双过程理论 [14,15],人类通常使用系统 II 的符号推理来解决复杂的逻辑推理问题。为了填补研究空白,我们通过将语义与语言推理过程解耦来系统地研究 LLMs 的上下文推理能力。通过广泛的实验,我们旨在回答以下研究问题:LLMs 是否在没有语义的情况下是好的上下文推理器?在本工作中,我们假设语言标记的学习确实在推理过程中发挥了重要作用,创建了标记之间强烈的连接,从而形成一个表面逻辑链(捷径),而不是真正执行正式推理过程。为了测试我们的假设,给定符号知识(事实和规则),我们在新提出的合成数据集上测试三种推理能力(即演绎、归纳和演绎推理):由逻辑规则生成的封闭世界、无噪音的多跃点符号推理数据集 Symbolic Tree dataset。此外,我们还使用 ProofWriter [16] Depth-1 任务,该任务包含答案需要推理多达深度 D=1 的问题。我们的研究结果表明,语义确实在 LLMs 的上下文推理中发挥了重要作用:当语义与常识一致时,LLMs 表现相当良好;当语义与上下文背景不一致或为反常语义时,LLMs 无法通过利用上下文新知识来解决推理任务。此外,我们还研究了 LLMs 的忆

    Related Works

    • 1. 推理在 LLMs 中的重要性:推理是涉及逻辑推断和基于给定信息的合乎逻辑的结论的基本认知过程。在自然语言处理领域(NLP)早期就已经进行了大量的研究。
      2. 推理相关的基准:随着 NLP 领域的研究,各种关注推理的基准已经提出,包括自然语言推理(NLI)[18][19][20]、常识推理 [21,22]、多跳推理 [23,24] 等。
      3. 对 LLM 推理能力的兴趣增加:近年来,人们对研究 LLM 的推理能力越来越感兴趣。研究人员探讨了各种方法,以便让 LLM 在推理任务上表现更好。
      4. 链式思维(CoT)的提出:CoT 被提出,以便让模型生成一个推理路径,将复杂的推理分解成多个较小的步骤。在数学 [26]、常识 [21,27] 和符号推理 [5] 基准上,这种方法显著提高了性能。
      5. 模糊语义下的推理能力:尽管在各种推理基准上取得了显著的性能,但所有任务都富含语义。因此,还不清楚 LLM 的推理能力来自哪里。这促使我们研究在语义解耦的情况下分析 LLM 的推理能力。
      6. 上下文学习与推理能力的关系:上下文学习(ICL)与 LLM 的推理能力密切相关。ICL 是指语言模型在推理过程中从几个示例中学习并适应的能力。
      7. 改进 ICL 的研究:一些研究使用现有的无监督相似性度量或训练提示检索器来选择相关示例 [28][29][30],others 将任务指令或不同的任务提示 [31,32] 纳入其中。
      8. ICL 性能的变异性:尽管在实证上取得了成功,但上下文示例的选择可能会导致很大的性能波动 [34,9]。最近的研究还探索了 ground-truth 标签和问题,ground-truth 输入输出映射是否必要,仅使用不正确的标签在示例中只略微降低性能 [35],而上下文示例中的输入 – 标签一致性在 contextual demonstration 中起重要作用 [36]。
      9. 理解为什么上下文学习有效:一些研究提供了理论分析,将上下文学习表示为贝叶斯推断 [13],或者某些示例中的 ICL 可以理解为已知学习算法的隐实现 [37]。然而,现有的上下文学习能力分析主要基于自然语言输入和丰富的语义信息。我们猜测,这个图 1 中的任务定义。记忆:从上下文知识中检索预测的事实。演绎:根据规则和事实预测预测的事实的正确性。归纳:根据具有相似模式的多个事实生成规则。类比:根据给定的规则和事实解释预测的事实。可能无法反映其在推导、归纳和类比方面的真正水平。

    Task Definitions

    • 1. 推理和记忆机制的定义及其任务描述
      2. 记忆在推理中的关键作用,包括存储推理过程中所需的上下文知识
      3. 可以将记忆视为深度为 0 的推理,其中问题是一个已知事实
      4. 推理任务涉及从存储的上下文知识中检索事实本身
      5. 语义对记忆的影响尚未得到充分研究,因此除了将语义从推理中解耦外,我们还试图研究语义对记忆的影响
      6. 使用新数据集微调语言模型,测试其在时间、效率和遗忘比例方面的表现
      7. 在评估是否成功添加或更新一个事实时,我们查询 LLM,使用关于尾实体的问

    Semantics Matter in LLMs’ memorizing

    • 本文比较了 LLM 的记忆力与对新符号和语义信息的记忆力。结果报告在表 1 中。从表 1 中,我们可以看到添加和更新语义知识的效率比添加和更新符号知识更高。这表明,与人类记忆能力相似,LLMs 更容易记住语义知识而不是符号知识(通常记忆符号比理解相关语义更具有挑战性)。然而,我们还在语义设置中的遗忘比例上发现,语义设置的遗忘比例比符号设置高。这可以归因于 LLMs 中语义知识具有更强的系数,这意味着在更新某些知识时,对系统中的其他知识产生更重大影响。在将 LLM 与图数据库 Neo4j 的比较中,我们可以看到,无论插入或编辑新的三元组,使用 Neo4j 进行知识更新都达到 100% 的准确率,无论知识是符号还是语义。预料之中,因为添加或更新的知识不与现有知识集重叠,所以不会对现有知识库产生进一步影响。这突出了使用非参数化知识库的优势。此外,与 LLM fine-tuning 的计算成本相比,使用优化存储机制的图数据库更新知识显著更快。这表明将 LLM 与非参数化知识库相结合可以提供在实际应用中更实际、更有效的途径。我们首先考虑将语义从上下文推理中解耦与保留原始语义之间的影响。在表 2 中,我们展示了在 Symbolic Tree 数据集上进行演绎、归纳和类比推理任务的结果。从表 2 中,我们观察到在两个演绎和归纳推理场景中,语义设置显著优于符号设置。值得注意的是,在归纳实验中,语义设置比符号设置大约高 30% 的准确度。这表明,在推理过程中保留丰富的语义可以使 LLM 的表现更好。虽然类比推理中,符号设置与语义设置的结果相当,但重要的是要注意,类比推理任务中的长上下文知识可能增加从记忆中选择相关信息和推理的难度。为了进一步研究这个问题,我们在一个更小的 Symbolic Tree 数据集上进行了额外的实验,结果在附录 O 中证实了语义设置仍然优于符号设置。这证实了保留语义可以提高 LLM 的推理能力。尽管 LLM 具有丰富的语义和强大的语言理解能力,但在与专门用于符号推理的方法相比,它们在推理任务上表现不佳。这表明,尽管 LLM 拥有广泛的知識庫和強大的語言理解能力,但 symbolic reasoning 不是它們相对于特定 symbolic-based reasoning 方法的主要优势。上述实验为语义对 LLM 推理的重要性提供了初步证据。

    Conclusion and Discussion

    • 本文介绍了首次对 LLM 推理能力中语义学角色的全面调查,通过将语义学与上下文提示分离。实验结果表明,当语义与常识一致时,LLM 表现相当良好;当语义与上下文不同时,LLM 无法通过利用上下文中的新知识来解决推理任务。这些发现揭示了语义在 LLM 推理能力中的重要性,并激发了对揭示黑盒 LLM 中存在的魔法的进一步研究。根据我们分析中发现的结论,我们指出了几个大型基础模型未来发展的潜在方向:更复杂的符号推理基准:为了提高 LLM 的上下文符号推理能力,需要开发具有分离语义的新数据集和更复杂的推理任务。这些基准应该挑战具有多样性和复杂符号知识的 LLM。结合外部非参数知识库:我们的实验结果表明,LLM 的存储能力与现有的图数据库方法不可比。这促使我们考虑将 LLM 与外部非参数知识库(如图数据库)集成,以提高其知识添加和更新。这种混合方法可以利用 LLM 的语言理解和非参数来源中存储的全面知识。提高处理上下文知识的能力:更强大和有力的能力来处理和记住上下文知识对于执行上下文推理任务至关重要。进一步的研究需要改进 LLM 在处理和利用上下文知识方面的能力。这包括开发机制,以更好地编码和检索相关信息,以便更有效地推理。从事实中,我们知道 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan)。因此,我们可以应用 L11,其中 A = Amelie,B = Thomas,C = Jonathan,D 和 E 为变量。这给我们带来了:r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) ∧ r2(Amelie) → r14(Amelie, E)。由于我们知道 r2(Amelie) 是 F7 中的真实陈述,我们可以将上述声明简化为:r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。现在,我们可以将 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan) 代入得到:r3(Thomas, Jonathan) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。我们可以看到,在选择 D = Alina 和 E = Jonathan 时,这个语句是正确的,因为我们有 r3(Thomas, Alina) 和 r3(Alina, Jonathan)。因此,r14(Amelie, Jonathan) 是正确的。答案是 True。因此,答案是 True。声明:r8(Leonie, Nico) 答案:我们可以使用 L5 来推断 r8(Leonie, Nico) 的真假。L5 说明,如果存在三个个体 A、B 和 C,使得 A 与 B 相关,B 与 C 相关,并且 A 具有某种属性(r2),则 A 与 C 以某种方式相关(r8)。使用这个规则,我们可以看到我们具有以下事实:-r3(Leonie, Emily) -r3(Emily, Nico) 因此,我们可以得出 r8(Leonie, Nico) 是真实的结论。声明:r7(Patrick, Alina) 答案:我们可以使用 L4:∀A, B:r3(A, B) ∧ r1(A) → r7(A, B) 来确定 r7(Patrick, Alina) 是真还是假。
  • CPET: Effective Parameter-Efficient Tuning for Compressed Large Language Models

    参数效率调优(PET)近年来得到了广泛的研究,因为它在调优更少的参数(PET 模块)的同时,仍然可以从大型语言模型(LLMs)中激发足够的知识以用于下游任务。此外,当 PET 用于服务多个任务时,可以在冷冻的 LLM 上构建不同的任务特定 PET 模块,避免冗余的 LLM 部署。尽管 PET 显著降低了调优和部署 LLM 的成本,但其推理仍受到 LLM 计算瓶颈的影响。为了解决上述问题,我们提出了一种基于压缩 LLM 的有效 PET 框架,名为\”CPET\”。在 CPET 中,我们评估了主流 LLM 压缩技术对 PET 性能的影响,然后引入了知识继承和恢复策略来恢复这些压缩技术导致的知识损失。我们的实验结果表明,由于 CPET 的恢复策略,将任务特定 PET 模块与压缩 LLM 协作可以实现与协作 PET 模块与压缩 LLM 的原始版本相当的性能,并优于直接将朴素 PET 方法应用于压缩 LLM。


    这篇论文介绍了一种新的框架 CPET,用于有效且参数高效的调整压缩大型语言模型。CPET 通过评估主流 LLM 压缩技术的影响,并引入知识继承和恢复策略来恢复这些压缩技术导致的知识损失。实验结果表明,由于 CPET 的恢复策略,将任务特定 PET 模块与压缩 LLM 合作可以实现与将 PET 模块与原始压缩 LLM 合作相媲美的性能,并且优于直接将经典 PET 方法应用于压缩 LLM。CPET 可以解决 PET 在推断时仍然存在的 LLM 计算瓶颈问题,同时显著降低 LLM 调整和部署的成本。


    Introduction

    • 近年来,数据规模和计算能力的增长推动了语言模型的参数规模的增长。虽然一些参数数量仅有数百万的小型和中型语言模型(Jawahar 等人,2019;Yenicelik 等人,2020)已经在捕捉丰富知识方面表现出色(Jawahar 等人,2019;Yenicelik 等人,2020),但大型语言模型(LLMs)拥有数十亿个参数(Brown 等人,2020;Black 等人,2022;Chowdhery 等人,2022)则表现出了更强大和更全面的能力,特别是在认知和体现方面(Lewkowski 等人,2022;Nakano 等人,2021;Driess 等人,2023)。尽管 LLM 取得了成功,但如何将 LLM 应用于实际场景中仍然是一个重要问题。由于大多数用户无法承担运行 LLM 的巨大成本,因此主要的解决方案是提供 LLM 服务,服务提供商(Ope-nAI,2022;谷歌,2023)将 LLM 适配为特定任务,然后提供用户界面以推断任务特定的 LLM。为了将 LLM 服务扩展到多任务场景中,参数效率调优(PET)已经广泛用于 LLM 的任务适配,其中将统一的 LLM 冻结为不同任务之间的骨干,然后在骨干上注入微小的可调整性 PET 模块,以刺激任务特定的知识。与传统的全参数微调(FT)相比,PET 在多任务服务中调用的参数数量要少得多,同时具有更低的内存开销,并实现与 FT 相当的性能(Ding 等人,2023;周等人,2022)。尽管 PET 在降低 LLM 的调优和部署成本方面显示出潜力,但计算共享骨干 LLM 的计算仍然必不可少,即推断骨干 LLM 和 PET 模块的组合是计算密集型和高延迟的。实验证明,采用模型压缩技术(Hinton 等人,2015;Bai 等人,2021;Liang 等人,2021)将 LLM 压缩成更小的版本是应对推断 LLM 不同延迟需求的解决方案,但压缩后的 LLM 是否能与压缩的 LLM 配合良好仍然是一个开放性问题,特别是考虑到模型压缩技术可能会引入知识丢失和性能退化到压缩的 LLM。在本文中,我们构建了一个有效的 PET 框架,名为“CPET”。为了恢复由压缩过程引起的知识丢失,CPET 引入以下两种机制:(1)PET 知识继承。更强大的 LLM 可以使学习 PET 模块更容易。同时,基于更强大

    Related Work

    • 本文重点介绍了与 LLMs、PET 和模型压缩相关的内容。在本文中,我们主要介绍了 PET 和模型压缩方法。有关 LLMs 的详细信息可以在相关综述中查阅(Qiu 等人,2020;Han 等人,2021;Bommasani 等人,2021;Zhao 等人,2023)。近年来,已经广泛研究了基于 Transformer 预训练语言模型(PLM),例如 GPT(Brown 等人,2020)和 BERT(Devlin 等人,2018)。随着预训练数据量和 PLM 参数规模的增长,大规模 PLM(Kaplan 等人,2020),即 LLM(Brown 等人,2020;Black 等人,2022;Chowdhery 等人,2022)也出现了,并且表现出了强大的能力(Wei 等人,2022),特别是在某些认知和体现场景中(Lewkowski 等人,2022;Nakano 等人,2021;Driess 等人,2023)。尽管 LLM 可以从大规模预训练数据中获取丰富的知识,以在零散或几散手方式处理复杂任务(Brown 等人,2020;Black 等人,2022),但为了更好地刺激 LLM 中存储的知识以服务于下游任务,仍需要将 LLM 适应各种特定任务场景。对于传统的 PLM,调整所有参数是适应它们的主要方法(Church 等人,2021),但这种方法由于参数效率低而变得昂贵,特别是在适应 LLM 时(Ding 等人,2023)。此外,在存储中维护特定任务的 LLM 版本是可接受的资源消耗(Zhou 等人,2022)。为了更有效地适应多任务场景,已经提出了各种 PET 方法(Lester 等人,2021;Houlsby 等人,2019;Hu 等人,2021;Li 和 Liang,2021;Ben Zaken 等人,2022),其中将冻结的 LLM 和一些可调整的模块注入到 LLM 的 Transformer 架构中,以帮助适应过程。PET 模块通常非常小,这可以显著降低调整 LLM 的成本。PET 模块可以注入到 Transformer 架构中的不同位置。例如,提示调整(Lester 等人,2021)和前缀调整(Li 和 Liang,2021)分别是将可调整的嵌入式向量添加到输入和隐藏状态中的两个方法。适配器调整(Houlsby 等人,2019)应用于相邻模块之间可调整的变换。BitFit(Ben Zaken 等人,2022)和 LoRA(Hu 等人,2021)对 Transformer 架构中的模块进行了轻微的内部修改。如前所述,LLM 已经获得了丰富的能力,只需要一种有效的方式来激发这些能力。可调整的 PET 模块的作用是学习任务特征,作为激发 LLM 特定能力的触发器(Ding 等人,2023)。足够的实验证明,将任务特定的 PET 模块与冻结的 LLM 结合可以达到与仅微调所有 LLM 参数相同的性能。此外,由于不同的任务特定的 PET 模块可以共享一个统一的冻结 LLM 作为它们的骨干,这也导致了在多任务服务和切换中的计算和存储开销较低(Zhou 等人,2022)。总的来说,PET 方法的出现显著降低了调整和部署 LLM 的成本。尽管 PET 方法可以降低部署 LLM 的存储成本,但 LLM 本身的计算瓶颈仍然存在。因此,为了进一步提高模型服务的效率,加快 LLM 的计算速度和模型压缩是关键。

    Methodology

    • 本文将介绍如何构建基于压缩 LLM 的有效 PET 框架 CPET。在介绍 CPET 之前,我们首先介绍一些必要的前置知识。为了简化,我们将一个完整的变压器架构表示为 Y = f(X; θ M),其中 f(•) 表示整个变压器架构的功能,θ M 是变压器的参数,X 是输入,Y 是输出。在 FT 设置中,所有 M 的参数(即θ M)都被调优,其中 X t , Y t 是下游任务 t 的数据,L 是任务 t 的损失函数。θ t M 是变压器 M 的最终任务特定模型参数。在 PET 设置中,M 被冻结,并使用任务特定数据调优 PET 模块 P。R n e I U 3 5 9 F 5 c d 6 d j 0 V r w c l n j u E P n M 8 f u K e M 5 Q = = X < l a t e x i t s h a 1 _ b a s e 6 4 = \” 3 V P m 2 u q r r N w s X 6 R n e I U 3 5 9 F 5 c d 6 d j 0 V r w c l n j u E P n M 8 f r g u M 3 g = = Q < l a t e x i t s h a 1 _ b a s e 6 4 = \” L P m T p l 8 R n e I U 3 5 9 F 5 c d 6 d j 0 V r w c l n j u E P n M 8 f t Z + M 4 w = = V < l a t e x i t s h a 1 _ b a s e 6 4 = \” < l a t e x i t s h a 1 _ b a s e 6 4 = \” g 6 G q 8 6 0 G e 4 n / B s e T 6 j S M 3 B m F < l a t e x i t s h a 1 _ b a s e 6 4 = \” 0 v 2 A u p W P 5 T U N g P y 4 J m g G r f m w P

      我们称注入到变压器 M 中的 PET 模块的参数为θ P(M)。如图 1 所示,由于注入了 PET 模块,变压器架构的计算方式略有改变,变为 Y = f PET(X; θ M , θ P(M))。调优过程可以用以下公式表示:θ t P(M) 是最终任务特定 PET 模块,与变压器 M 协作。本文旨在通过压缩变压器 M 获得 PET 模块。为此,在压缩变压器 M 后,使其具有较少的参数或更低的位表示,我们将压缩的变压器 M 及其参数分别称为 C 和θ C。那么,压缩模型的计算可以表示为 Y = f(X; θ C)。由于 PET 方法不改变变压器 M,因此采用 PET 方法与压缩变压器 M 是正交的。因此,我们提出了更有效的 PET 框架 CPET,首先通过任务无关的模型压缩方法压缩变压器 M,然后将 PET 方法应用于压缩的变压器 M。压缩方法包括:1)使用任务无关的压缩方法压缩变压器 M,保持变压器 M 的位表示和插入位置不变;2)使用压缩的变压器 M 代替未压缩的变压器 M,可以显著减少变压器的推理时间和资源需求。值得注意的是,这种加速是不免费的。想象一下,采用任务无关的压缩方法可能会削弱变压器 M,这将不可避免地影响最佳参数θ t P(C) 的搜索和最终模型 f PET(X; θ C , θ t P(C)) 的效果。

    Experiment

    • 1. 实验使用了 11 个数据集,包括 BoolQ、CB、RTE、COPA、WiC、SST-2、MRPC、QQP、MNLI、QNLI 和 SQuAD,这些数据集涵盖了典型的 NLP 任务。
      2. 实验使用了 T5-3B 模型,该模型由张等人(2022a)提出。
      3. 实验使用了 8 位量化、结构化剪枝、无结构化剪枝和量化方法。
      4. 实验实现了四个范式:T5-3b + PET,T5-base + PET,CLM + PET 和 CLM + CPET。
      5. 在这些范式中,T5-3b + PET 和 T5-base + PET 使用了 PET 模块,而 CLM + PET 和 CLM + CPET 使用了压缩的 T5-3B(CLM)。
      6. 实验使用了 OpenDelta 工具包(Ding 等人,2023)来实现这些范式。
      7. 使用了 LoRA 方法(Hu 等人,2021)作为 PET 方法的基准。
      8. 设置了 LoRA 模块的瓶颈维度为 32。
      9. 设置了恢复模块的瓶颈维度为 32。
      10. 实验使用了三种学习率:{1e-3, 5e-4, 1e-4, 1e-5}。
      11. 实验使用了{8, 16, 32, 64, 128, 256}中的一个 batch size。
      12. 实验使用了 1e-2 的权重衰减。
      13. 实验将蒸馏系数设置为α = 0.05。
      14. 图 2 显示了 CPET 与 PET 之间的性能改进。
      15. 从图中可以看出,与原始 LLM 相比,压缩的 LLM 的性能不如原始 LLM。这说明任务无关的压缩方法导致了一些与下游任务相关的知识丢失。也就是说,为了提高推理速度,压缩模型的性能可能会下降,因为加速过程会影响性能。
      16. 在压缩模型中,CPET 在所有情况下都优于纯 PET 方法。

    Conclusion

    • 本文提出了一种基于压缩 LLM(CPET)的有效 PET 框架,以进一步降低部署 LLM 和 PET 模块时的资源要求和推理速度。由于任务无关压缩方法可能导致丢失一些任务特定知识,我们引入了 PET 知识继承和模型知识恢复以恢复丢失的知识。通过从非压缩 LLM 中继承 PET 模块的先前任务知识,可以更容易地找到压缩 LLM 的最佳 PET 模块。此外,通过引入知识恢复模块以恢复压缩阶段丢失的任务特定能力,与压缩 LLM 合作的 PET 模块可以实现与基于非压缩 LLM 的 PET 模块相当的性能。实验结果表明,CPET 可以超越基于压缩 LLM 的基线,同时,CPET 保持了 PET 方法在多任务服务方面的优势。本文主要加速了 PET 方法和 LLMs 的推理。我们将未来工作留给了解决 LLMs 计算瓶颈。
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1