分类: 未分类

  • Tülu 3:开放语言模型后训练中的前沿推动——算法实现详解

    摘要

    开放语言模型的后训练(Post-Training)是提升模型行为和解锁新技能的重要步骤。尽管这些技术在闭源模型中得到了广泛应用,但开放资源和具体训练方案相对滞后。为填补这一空白,我们介绍了Tülu 3,作为一系列完全开放的先进后训练模型,配套提供了数据集、代码及训练配方,旨在为现代后训练技术提供全面的指导。Tülu 3基于Llama 3.1模型,通过监督微调(SFT)、直接偏好优化(DPO)以及一种新颖的方法——具有可验证奖励的强化学习(RLVR),实现了在多项基准测试中超越现有开放和闭源模型的性能。本文重点详述了Tülu 3中算法的具体实现过程及其细节。

    1. 引言

    后训练技术,包括指令调优、基于人类反馈的强化学习(RLHF)等,已成为构建前沿语言模型的关键步骤。然而,这些技术的开放实现和资源相对闭源方法仍有较大差距。Tülu 3的提出旨在通过公开的训练数据、代码和训练配方,推动开放语言模型后训练研究的发展,缩小与闭源方法之间的差距。

    2. Tülu 3 概述

    Tülu 3采用多阶段的训练流程,逐步优化模型性能,具体包括数据策划、监督微调、偏好调优以及增强的强化学习阶段。以下将详细介绍每个阶段的算法实现和细节。

    2.1 数据策划(Data Curation)

    数据策划是后训练流程的基础,目标是收集和生成多样化、高质量的指令和响应,以覆盖模型需提升的核心技能,如推理、数学、编程等。

    2.1.1 公共数据集来源

    通过广泛调研现有公开数据集,选择能够促进多样性和覆盖目标技能的高质量数据集,如WildChat、OpenAssistant、FLAN v2等。数据集的选择基于多样性、质量和许可证的透明度,确保训练数据的合法性和多样性。

    2.1.2 针对目标技能的合成数据生成

    为了弥补公共数据集在特定技能上的不足,采用基于角色驱动的方法生成合成数据。具体步骤包括:

    1. 定义角色:从Persona Hub中选取约25万个不同的角色描述,如“专注于神经网络的机器学习研究员”。
    2. 生成指令:利用预训练语言模型(如GPT-4)根据角色描述和数据生成提示(prompt)生成相关技能的指令,如精确指令遵循、数学问题、编程任务等。
    3. 确保多样性:通过不同角色和指令类型,避免数据产生重复模式或低多样性。

    2.2 监督微调(Supervised Finetuning, SFT)

    监督微调阶段旨在通过已有的高质量指令-响应对进一步优化模型,使其能够更好地理解和执行指令。

    2.2.1 SFT 数据准备

    1. 现有响应的过滤与选择:保留人类或高性能模型(如GPT-4)的响应,同时过滤掉空响应或包含模型开发者信息的回复。
    2. 生成新的响应:对于缺乏高质量响应的指令,使用GPT-4生成新的响应,确保每条指令至少有一个高质量的响应配对。

    2.2.2 Tülu 3 SFT 混合数据集

    通过多轮实验优化数据混合比例,确保各类核心技能的均衡提升。具体步骤包括:

    1. 技能专注的数据混合:针对推理、数学、编程等不同技能,分别构建技能特定的数据混合,并训练独立模型评估其对单一技能的提升。
    2. 数据组合与迭代优化:将各技能特定的数据混合组合,进行多轮数据混合调整,包括数据去污染和下采样,优化整体性能。

    2.3 偏好调优(Preference Tuning)

    偏好调优旨在通过学习人类或模拟偏好,进一步优化模型输出的质量和符合性。Tülu 3采用直接偏好优化(DPO)作为主要方法,并进行了多项优化实验。

    2.3.1 偏好数据生成

    1. 提示选择:从SFT阶段的指令中选择用于生成偏好数据的提示,并补充未使用过的提示来源,如未见数据集中的指令。
    2. 响应生成:从多个模型(包括Tülu 3 SFT模型和其他开放模型)随机采样生成对这些提示的多种响应。
    3. 偏好标注:利用GPT-4作为评审器,对生成的响应进行多方面评分(如有用性、指令遵循性、真实性等),生成偏好对(preferred, rejected)。

    2.3.2 长度归一化的DPO(Length-Normalized DPO)

    为解决偏好优化过程中长度偏差问题,Tülu 3采用长度归一化的DPO方法,其目标函数为:

    通过对响应长度进行归一化,减轻了模型在偏好优化中的长度偏差,提升了训练效率和输出质量。

    2.4 强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)

    RLVR是一种新颖的方法,旨在通过强化学习仅在模型生成的输出经过验证正确时给予奖励,从而提升模型在特定任务上的性能。

    2.4.1 RLVR 数据准备

    1. 任务选择与验证函数定义:选择具有可验证结果的任务,如数学问题解决和精确指令遵循,为每类任务定义相应的验证函数。
    2. 奖励函数设计:定义奖励函数v(x,y)v(x, y)v(x,y),当输出yyy在给定提示xxx下是正确时,给予固定奖励值α\alphaα,否则奖励为零。

    2.4.2 RLVR 训练流程

    1. 初始模型选择:选择通过DPO微调的模型作为RLVR训练的初始模型。
    2. PPO 算法应用:使用Proximal Policy Optimization (PPO)算法,优化语言模型策略以最大化可验证奖励。
    3. 训练细节优化
      • 值函数初始化:将值函数初始化为训练中的奖励模型,确保值函数能有效估计奖励。
      • 去除Dropout:在训练过程中禁用Dropout,保证推理过程和学习过程中的一致性。
      • 分离前向传播:分别对选择和拒绝的响应进行前向传播,减少GPU内存占用,提高训练效率。

    2.4.3 RLVR 训练细节与优化

    通过多轮实验,调整了PPO的关键超参数,如学习率、KL惩罚系数等,确保RLVR训练的稳定性和有效性。此外,引入异步RL训练架构,利用vLLM加速大规模模型的推理过程,提高了训练效率。

    2.5 评估与结果

    Tülu 3通过广泛的基准测试验证了其性能,具体包括开发集和未见评估集的表现。实验结果显示,Tülu 3在多项核心技能上显著优于现有的开放和闭源模型,尤其在数学推理和精确指令遵循方面表现突出。

    3. 结论

    Tülu 3作为一系列完全开放的语言模型,展示了现代后训练框架的先进性。通过结合监督微调、直接偏好优化以及具有可验证奖励的强化学习,Tülu 3在多项基准测试中超越了现有的开放和闭源模型。我们详细阐述了Tülu 3中各个算法阶段的具体实现过程及其优化细节,为未来的开放后训练研究提供了宝贵的参考。

    致谢

    我们感谢John Schulman在项目中的宝贵建议,感谢National Artificial Intelligence Research Resource (NAIRR) Pilot和Microsoft Azure对本工作的支持。此外,感谢Ai2和华盛顿大学NLP社区的无数成员在项目

  • 硅谷的王座游戏:从CISC到RISC的计算机革命与Intel的兴衰

    🌟 序章:一场关于计算未来的赌局

    1980年,IBM因客户需求的压力,决定推出个人电脑(PC)。这看似是一个简单的商业决策,却意外地为计算机行业埋下了两颗改变历史的种子:一颗是微软提供的DOS操作系统,另一颗是Intel的8088处理器。这两个关键组件不仅奠定了IBM PC的基础,还塑造了未来几十年的计算机生态。

    微软通过操作系统锁定了开发者和用户,而Intel则通过其x86指令集架构的处理器,牢牢抓住了硬件的心脏。操作系统和处理器的双重锁定,成就了微软和Intel的辉煌时代。然而,技术的进化从来不会停滞。随着时间的推移,新的计算架构和需求不断涌现,Intel和微软的“护城河”逐渐成为了“沉重的枷锁”。

    🧠 CISC与RISC的对决:复杂与简约的哲学之争

    在理解Intel的崛起与困境之前,我们需要先了解两个重要的计算架构:复杂指令集计算(CISC)和精简指令集计算(RISC)

    CISC的辉煌

    8088处理器的核心是x86指令集架构,这是一种CISC架构。CISC的设计初衷是为了在内存昂贵且速度慢的时代,将复杂的操作压缩成单一指令。通过微代码(microcode)将这些复杂指令分解成更小的步骤,处理器可以高效地执行任务。

    这种设计在当时是革命性的,因为它减少了程序员的负担,同时优化了内存的使用。然而,CISC的复杂性也带来了硬件实现上的挑战,需要更多的晶体管来支持微代码的翻译。

    RISC的崛起

    1980年,与Intel和IBM的合作几乎同时,伯克利大学的David Patterson和他的团队开始研发一种全新的架构:RISC(精简指令集计算)。RISC的哲学完全不同,它选择了“简化”的道路。通过用简单的指令取代复杂的微代码,RISC处理器将更多的晶体管用于高速寄存器,从而提升了计算效率。

    RISC的设计理念是:“让硬件更简单,让软件承担更多的优化工作。” 这种方法理论上可以实现更快的计算速度,但需要重新设计编译器和程序。

    Intel的抉择

    在1980年代中期,Intel内部也曾考虑过放弃CISC,转而采用RISC架构。然而,Pat Gelsinger(后来成为Intel的CEO)提出了一个截然不同的观点:“软件的兼容性是计算架构成功的决定性因素。”

    Gelsinger认为,尽管RISC在性能上可能有优势,但这种优势不足以弥补软件生态迁移的成本。他预见到,随着摩尔定律的推进,CISC的性能差距会逐渐缩小,而软件的兼容性将成为Intel的核心竞争力。

    事实证明,他是对的。在接下来的几十年里,Intel通过不断优化CISC架构,推出了486、Pentium等一系列处理器,牢牢占据了市场主导地位。

    🔄 算法的演进:从微代码到微操作

    Intel的成功不仅依赖于其对CISC的坚持,还得益于其在硬件设计上的不断创新。特别是微操作(micro-ops)的引入,使得CISC处理器在保持兼容性的同时,逐渐向RISC靠拢。

    微代码的局限

    在传统的CISC架构中,微代码是将复杂指令分解为基本操作的核心。然而,随着指令集的复杂性增加,微代码的效率逐渐成为瓶颈。

    微操作的突破

    Intel通过引入微操作单元,将CISC指令动态翻译为类似RISC的简单指令。这种方法不仅保留了x86指令集的兼容性,还显著提升了处理器的执行效率。

    例如,假设有一个CISC指令ADD [mem], EAX(将内存中的值加到寄存器EAX中),传统的微代码可能需要多个步骤来完成。而通过微操作,这个指令可以被拆分为以下几个简单的操作:

    1. 加载内存值到寄存器LOAD R1, [mem]
    2. 执行加法操作ADD EAX, R1

    这种动态翻译的过程使得CISC处理器在执行效率上接近RISC,同时避免了软件生态的迁移成本。

    📱 移动时代的冲击:从性能到效率的转变

    尽管Intel在PC时代占据了主导地位,但移动计算的兴起彻底改变了游戏规则。智能手机的出现让“效率”成为了新的优先级,而这正是Intel的软肋。

    性能与效率的矛盾

    Intel的处理器长期以来以性能为核心目标,忽视了功耗和热量管理的重要性。在移动设备中,电池寿命和能效比成为了关键指标,而这些正是基于RISC的ARM架构的强项。

    ARM处理器通过其简单的指令集和低功耗设计,迅速占领了智能手机市场。相比之下,Intel试图将其桌面处理器“瘦身”以适应移动设备,但这种“自上而下”的方法始终无法与ARM的“自下而上”设计相媲美。

    错失的机会

    2007年,苹果推出了第一代iPhone,标志着移动计算时代的到来。然而,Intel拒绝为iPhone提供处理器,理由是利润率不够高。这一决策被证明是Intel历史上的重大失误。

    与此同时,苹果选择了基于ARM架构的处理器,这不仅推动了ARM生态的快速发展,也让Intel错失了进入移动市场的机会。

    🏭 制造的困境:从领先到落后

    Intel的另一个核心竞争力是其制造工艺。然而,随着台积电(TSMC)和三星在晶圆制造领域的崛起,Intel逐渐失去了领先地位。

    摩尔定律的挑战

    摩尔定律曾是Intel的制胜法宝,它预测了晶体管数量每两年翻一番的增长趋势。然而,随着工艺节点的缩小,制造成本和技术难度呈指数级上升。

    台积电通过与苹果等客户的深度合作,成功实现了规模效应,而Intel则因缺乏移动市场的体量支撑,逐渐在制程技术上落后。

    转型的失败

    近年来,Intel试图通过“IDM 2.0”战略转型为一家代工厂,为其他公司制造芯片。然而,这一转型为时已晚。台积电和三星已经在代工市场建立了牢固的地位,而Intel的制造能力和客户信任度都难以匹敌。

    🤖 AI的崛起:Intel的最后机会?

    人工智能(AI)的兴起为芯片行业带来了新的增长点。然而,Intel在这一领域同样面临巨大挑战。

    GPU的崛起

    AI训练和推理任务对并行计算能力的需求,使得GPU成为了AI芯片的主力。Nvidia凭借其CUDA生态和强大的GPU产品,占据了AI市场的主导地位,而Intel在这一领域几乎没有竞争力。

    国家安全与制造复兴

    尽管Intel在商业市场上面临困境,但其制造能力对美国的国家安全至关重要。台积电的生产集中在台湾,这使得美国在地缘政治上面临风险。

    为了应对这一挑战,美国政府可能需要采取类似“曼哈顿计划”的方式,支持Intel重建其制造能力,并在AI芯片领域实现突破。

    🏁 结语:从辉煌到重生的可能性

    Intel的故事是技术进化与商业决策交织的典型案例。从CISC与RISC的对决,到移动计算的冲击,再到AI时代的挑战,Intel的兴衰反映了整个计算机行业的变迁。

    尽管Intel目前面临重重困难,但其制造能力和技术积累仍然是不可忽视的资产。如果能够抓住AI和国家安全的契机,Intel或许还有机会在新的计算时代中重获新生。


    参考文献

    1. IBM PC与个人计算机的历史背景
    2. CISC与RISC架构的技术演进
    3. Intel的制造工艺与台积电的崛起
    4. 移动计算对芯片行业的影响
    5. AI与芯片设计的未来趋势
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1