标签： AGI

LangChain：ChatGPT插件会干掉这位“Model as a Service”粘合剂吗？
引言：AI 应用开发的新手村

LangChain，一个在2022年10月底横空出世的开源 Python 库，凭借其对大量 LLM 应用开发逻辑和工具的封装，迅速成为了 AI 应用开发领域的热门话题。它就像一位新手村的导师，为初入 AI 应用开发领域的开发者们指明了方向。

01 构建 AI 应用的挑战：不止于调用模型 API

仅仅调用 LLM 的 API 并不能满足构建真正实用 AI 应用的需求。现阶段的 LLM 模型存在两大局限：
1. 缺乏与外部世界的交互能力: 无法搜索网页、调用 API 或查询数据库。
2. “记忆”有限且不完美: 训练数据截止日期限制和缺乏私有数据，导致模型无法获取最新信息，甚至可能给出与事实相悖的答案。
02 LangChain 的解决方案：为 LLM 插上“手臂”、注入“上下文”

LangChain 的出现为解决上述问题提供了有效方案，它通过以下方式增强了 LLM 的能力：
- 注入“上下文”: 利用 Map Reduce 思想，将长文本切片、使用 Embedding 引擎和向量数据库，突破 token 数量限制，为模型提供更丰富的背景信息。
- 赋予“行动能力”: 集成搜索引擎、数据库、API 等外部工具，让 LLM 能够与外部世界交互，执行更复杂的任务。
以构建 300 页书籍问答机器人为例：
1. 将书籍切分为多个文本块，并利用 Embedding 引擎将其转换为向量。
2. 将向量存储在向量数据库（例如 Pinecone）中。
3. 当用户提问时，将问题转换为向量，并在向量数据库中搜索语义最接近的文本块作为答案。
LangChain 在这一过程中提供了完整的工具集成和逻辑封装，大大简化了开发流程。

03 LangChain 的核心身份：LLM 的增强器和粘合剂

LangChain 扮演着多重角色，其中最重要的是：
- 让 LLM 拥有上下文和行动能力的首选工具: 通过 Chain、Agent、Memory 等模块，为 LLM 提供了与外部世界交互、获取信息和执行复杂任务的能力。
- 所有 LLM Ops 工具的粘合剂: LangChain 集成了各种 LLM、Embedding 引擎、向量数据库等工具，并提供统一的接口，方便开发者灵活选择和组合使用。
- 快速崛起的开源社区: LangChain 拥有庞大且活跃的开源社区，不断贡献新的功能和集成，推动着 LLM 应用开发的发展。
04 面临的挑战：Prompt Ops 的质疑和商业化困境

尽管 LangChain 发展迅速，但也面临着一些挑战：
- 商业化困境: 作为一个开源项目，LangChain 的商业模式尚不明确，难以吸引大型企业付费使用。
- Prompt Ops 的局限性: 过度依赖 Prompt Engineering，可能导致应用逻辑过于复杂，难以维护和扩展。
05 竞争格局：以和为贵，各展神通

LangChain 的竞争对手主要包括 GPT-Index、Microsoft Semantic Kernel、Dust 等。这些工具各有优劣，LangChain 凭借其灵活性和强大的功能，在开发者群体中保持着领先地位。

06 未来展望：Harrison 的雄心壮志

LangChain 创始人 Harrison Chase 并不满足于仅仅做一个开源项目，他希望构建更强大的开发者工具，推动 AI 应用开发的普及。

结语：

LangChain 作为 LLM 应用开发领域的先驱者，为开发者们提供了一套强大的工具和框架。尽管面临着一些挑战，但 LangChain 的未来依然充满希望。

参考文献:
2024 年 6 月 25 日
RLHF 家族的奇巧魔改：On Policy 与 Off Policy 路线大PK
随着 [Llama3] 的开源，Alignment 的重要性日益凸显，而作为 Alignment 中坚力量的 RLHF 家族也愈发繁荣。今天，我们就来一起探索一下 RLHF 领域中那些令人拍案叫绝的魔改思路吧！

On Policy vs. Off Policy：究竟谁更胜一筹？

在 LLM 领域，RLHF 主要分为两大路线：
- On Policy 路线: 以 [PPO] 为代表，需要 LLM 在训练过程中实时生成文本。
- Off Policy 路线: 以 [DPO] 为代表，不需要 LLM 在训练过程中实时生成文本，而是利用已有的数据进行学习。
On Policy 方法通常需要更大的算力支持，训练时间也更长，但理论上具有更高的效果上限。

On Policy：让模型亲自上阵

On Policy 方法强调让模型在训练过程中“亲力亲为”，根据自身生成结果的好坏来学习改进。

举个例子，想象一下你正在学习玩王者荣耀：
- On Policy: 你亲自上阵，旁边有一位教练实时指导你的操作，当你成功推塔时给予鼓励，当你失误被杀时及时提醒。
- Off Policy: 你观看大量职业选手和青铜玩家的对局视频，学习前者的优秀操作，避免后者的低级失误。
On Policy 方法的优势在于训练数据与模型能力完全匹配，因为所有数据都是由当前模型生成的。

Off Policy：站在巨人的肩膀上学习

Off Policy 方法则侧重于利用已有数据进行学习，模型不需要亲自生成答案，因此训练速度更快，对算力要求更低。

然而，Off Policy 方法的效果很大程度上取决于训练数据的质量和与模型能力的匹配程度。如果数据质量不高，或者与模型能力相差太远，那么训练效果就会大打折扣。

1. On Policy 路线：PPO 及其优化

1.1 ReMax：丢掉 Critic，轻装上阵

[ReMax] 提出了一种大胆的想法：丢弃 PPO 中的 Critic 网络，让 Actor 直接与 Reward Model 对齐。

这样做的好处显而易见：
- 减少模型参数: 从 4 个模型减少到 3 个，参数量大幅降低。
- 加速训练: 不再需要更新 Critic 网络，反向传播速度更快。
ReMax 的核心在于使用“当前策略”认为最好的行为来作为 baseline，从而在没有 Critic 的情况下降低方差，稳定训练。

1.2 GRPO：暴力求均值，效果依旧惊艳

[DeepSpeek-v2] 中提出的 [GRPO] 算法则采取了另一种思路：保留 PPO 中 importance sampling 和 clip 等先进机制，但使用暴力采样求均值的方式来代替 Critic 网络。

GRPO 的优势在于：
- 简化模型结构: 无需 Critic 网络，降低了模型复杂度。
- 保留 PPO 优势: 保留了 PPO 中的优秀机制，保证了训练效果。
1.3 其他 On Policy 优化方向

除了 ReMax 和 GRPO 之外，研究人员还探索了其他优化 PPO 算法的方向，例如：
- 分布式 PPO: 将训练任务分配到多个 GPU 或 TPU 上，加快训练速度。
- 基于 Transformer 的 PPO: 利用 Transformer 模型强大的表征能力，提升策略网络的性能。
2. Off Policy 路线：DPO 及其改进

2.1 DPO：最大化概率差，简单高效

[DPO] 算法的思路非常直观：对于同一个 prompt，通过降低“坏答案”的采样概率，提升“好答案”的采样概率，从而训练模型。

DPO 的优势在于：
- 训练高效: 无需模型生成文本，训练速度快。
- 数据利用率高: 可以充分利用已有的 pair 数据。
2.2 DPOP：添加正则项，防止模型“训崩”

DPO 算法存在一个问题：在某些情况下，”好答案” 和 “坏答案” 的采样概率会同时降低，导致模型效果不佳。

为了解决这个问题，[DPOP] 算法在 DPO loss 的基础上加入了一个正则项，旨在：
- 当模型对 “好答案” 拟合不足时，鼓励模型更多地学习 “好答案”。
- 当模型对 “好答案” 拟合较好时，着重降低 “坏答案” 的采样概率。
2.3 TDPO：引入 KL 惩罚，平衡效率与多样性

与 PPO 类似，[TDPO] 算法也在 DPO 的 loss 函数中引入了 KL 惩罚项，用于限制模型更新幅度，防止过拟合。

与 PPO 不同的是，TDPO 使用的是 forward KL，而不是 backward KL。这样做的好处是：
- 输出多样性更高: forward KL 鼓励模型覆盖更广泛的概率分布，从而生成更多样化的文本。
2.4 ORPO：抛弃参考模型，化繁为简

[ORPO] 算法则更进一步，试图连 reference model 也一并省去。

ORPO 的 loss 函数由两部分组成：
- SFT Loss: 保证模型对 chosen response 的基本拟合。
- Odds Ratio Loss: 通过最大化“好答案”与“坏答案”的 odds 值之比，来提升模型对“好答案”的偏好。
结语

无论是 On Policy 还是 Off Policy，RLHF 家族的“魔改”之路都充满了奇思妙想。相信随着研究的深入，RLHF 技术将会在 Alignment 领域发挥越来越重要的作用。
2024 年 6 月 23 日

标签： AGI

LangChain：ChatGPT插件会干掉这位“Model as a Service”粘合剂吗？

RLHF 家族的奇巧魔改：On Policy 与 Off Policy 路线大PK

On Policy vs. Off Policy：究竟谁更胜一筹？

On Policy：让模型亲自上阵

Off Policy：站在巨人的肩膀上学习

1. On Policy 路线：PPO 及其优化

1.1 ReMax：丢掉 Critic，轻装上阵

1.2 GRPO：暴力求均值，效果依旧惊艳

1.3 其他 On Policy 优化方向

2. Off Policy 路线：DPO 及其改进

2.1 DPO：最大化概率差，简单高效

2.2 DPOP：添加正则项，防止模型“训崩”

2.3 TDPO：引入 KL 惩罚，平衡效率与多样性

2.4 ORPO：抛弃参考模型，化繁为简

结语