博客

KwaiAgents: 快手Agent系列

KwaiAgents是快手快知团队开源的一整套Agent系列工作。这个开源项目包括以下内容：

动态

KwaiAgents是由快手快知团队开源的一整套Agent系列工作。这个开源项目包括以下内容：

KAgentSys-Lite：这是论文中KAgentSys的轻量版系统，保留了一部分原系统的功能。相比功能齐全的系统，KAgentSys-Lite有一些差异：（1）缺少部分工具；（2）缺乏记忆机制；（3）性能略有降低；（4）使用不同的代码库，Lite版本基于开源项目如BabyAGI和Auto-GPT。尽管有这些变更，KAgentSys-Lite在众多开源Agent系统中仍然具有较好的性能。
KAgentLMs：这是经过论文中提出的Meta-agent tuning之后的系列大模型，具备了规划、反思、工具使用等能力。
KAgentInstruct：这是一个包含超过20万条经过人工编辑的Agent相关指令微调数据集。
KAgentBench：这是一个包含超过3000条经过人工编辑的自动化评测Agent能力数据集，评测维度包括规划、工具使用、反思、总结、人设指令等。

评测表现

KwaiAgents提供了一系列模型和数据集来评测Agent的能力。以下是一些关键的模型和数据集：

模型	训练数据	Benchmark
Qwen-7B-MAT	KAgentInstruct (即将发布)	KAgentBench
Baichuan2-13B-MAT	KAgentInstruct (即将发布)	KAgentBench

使用指南

如果你想使用KwaiAgents，以下是一些快速入门指南：

AgentLMs 系列模型使用

AgentLMs系列模型是具备规划、反思和工具使用等能力的大模型。你可以按照以下步骤使用这些模型：

安装依赖：在项目根目录下执行以下命令安装所需的依赖：

pip install -r requirements.txt

加载模型：使用Hugging Face Transformers库加载所需的模型，例如：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "kwaikeg/kagentlms_qwen_7b_mat"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

生成文本：使用加载的模型生成文本，例如：

input_text = "今天天气不错，"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=50,# 📚 KwaiAgents: 快手Agent系列工作

<p align="center">
    <a href="/KwaiKEG/KwaiAgents/blob/main/blob/logo.png"><img src="/KwaiKEG/KwaiAgents/raw/main/blob/logo.png" width="400" style="max-width: 100%;"></a>
</p>

<p align="left">
    <a href="/KwaiKEG/KwaiAgents/blob/main/README.md">English</a> ｜ 中文
</p>

KwaiAgents是快手快知团队开源的一整套Agent系列工作。这个开源项目包括以下内容：

### 动态

KwaiAgents是由快手快知团队开源的一整套Agent系列工作。这个开源项目包括以下内容：

- **KAgentSys-Lite**：这是论文中KAgentSys的轻量版系统，保留了一部分原系统的功能。相比功能齐全的系统，KAgentSys-Lite有一些差异：（1）缺少部分工具；（2）缺乏记忆机制；（3）性能略有降低；（4）使用不同的代码库，Lite版本基于开源项目如BabyAGI和Auto-GPT。尽管有这些变更，KAgentSys-Lite在众多开源Agent系统中仍然具有较好的性能。

- **KAgentLMs**：这是经过论文中提出的Meta-agent tuning之后的系列大模型，具备了规划、反思、工具使用等能力。

- **KAgentInstruct**：这是一个包含超过20万条经过人工编辑的Agent相关指令微调数据集。

- **KAgentBench**：这是一个包含超过3000条经过人工编辑的自动化评测Agent能力数据集，评测维度包括规划、工具使用、反思、总结、人设指令等。

### 评测表现

KwaiAgents提供了一系列模型和数据集来评测Agent的能力。以下是一些关键的模型和数据集：

| 模型                           | 训练数据                                     | Benchmark                                      |
|-------------------------------|--------------------------------------------|-----------------------------------------------|
| [Qwen-7B-MAT](https://huggingface.co/kwaikeg/kagentlms_qwen_7b_mat)       | [KAgentInstruct](https://huggingface.co/datasets/kwaikeg/KAgentInstruct) (即将发布) | [KAgentBench](https://huggingface.co/datasets/kwaikeg/KAgentBench)            |
| [Baichuan2-13B-MAT](https://huggingface.co/kwaikeg/kagentlms_baichuan2_13b_mat) | [KAgentInstruct](https://huggingface.co/datasets/kwaikeg/KAgentInstruct) (即将发布) | [KAgentBench](https://huggingface.co/datasets/kwaikeg/KAgentBench)            |

### 使用指南

如果你想使用KwaiAgents，以下是一些快速入门指南：

#### AgentLMs 系列模型使用

AgentLMs系列模型是具备规划、反思和工具使用等能力的大模型。你可以按照以下步骤使用这些模型：

1. 安装依赖：在项目根目录下执行以下命令安装所需的依赖：

pip install -r requirements.txt

2. 加载模型：使用Hugging Face Transformers库加载所需的模型，例如：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “kwaikeg/kagentlms_qwen_7b_mat”
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

3. 生成文本：使用加载的模型生成文本，例如：

input_text = “今天天气不错，”
input_ids = tokenizer.encode(input_text, return_tensors=”pt”)
output = model.generate(input_ids, max_length=50,

2023 年 12 月 27 日

Empowering Few-Shot Recommender Systems with Large Language Models — Enhanced Representations

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决推荐系统在少样本（few-shot）场景下如何有效生成推荐的问题。具体来说，作者探讨了如何利用大型语言模型（LLMs）来增强基于显式反馈的推荐系统在少样本场景下的性能。他们提出了一种使用LLMs生成用户和项目表示的方法，并将这些表示集成到不同的推荐模型中，以评估它们在多样化推荐任务中的有效性。通过消融实验和案例研究分析，论文展示了LLMs在处理显式反馈方面的能力，以及它们如何作为推荐系统组件，增强系统在少样本场景下的性能。此外，LLMs的广泛适应性提高了推荐模型的泛化潜力，尽管存在某些固有约束。作者希望他们的研究可以激发研究人员深入探讨LLMs在推荐系统中的多方面作用，并为基于显式反馈的推荐系统领域的发展做出贡献。

Q: 有哪些相关研究？

A: 相关研究包括： 1. 利用LLMs（如ChatGPT）作为推荐系统组件的研究，例如Chat-REC，它将ChatGPT作为对话式推荐界面，增强现有推荐模型的性能，使推荐过程更具互动性和可解释性。 2. 使用LLMs进行文本数据增强的研究，如ChatAug，它利用ChatGPT对文本数据进行重述，同时展示了ChatGPT作为文本摘要工具的有效性。 3. 在自然语言生成任务中，ChatGPT在特定条件下表现出在生成有说服力的推荐解释和广告方面的卓越能力。 4. 探索ChatGPT作为显式反馈处理方法的研究，尤其是在少样本推荐场景中，例如将ChatGPT作为推荐系统的独立组件，评估其在特定推荐任务（如直接推荐）中的性能。 5. 使用LLMs生成文本表示的研究，通过提示模板将用户和项目评论转换为文本表示，然后使用语言模型（如MacBERT）将这些表示嵌入到推荐系统中。 6. 评估LLMs处理显式反馈有效性的研究，通过消融实验和案例研究分析来量化LLMs生成的表示与原始评论之间的语义关系，并评估这些表示在不同推荐模型和任务中的有效性。 7. 探索LLMs在推荐系统中的多方面作用，如可解释性、冷启动挑战和模型增强，特别是在涉及显式反馈的推荐系统中。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决少样本推荐问题： 1. **使用LLMs生成用户和项目表示**：作者开发了一个提示模板，该模板利用LLMs（如ChatGPT）处理电影评论，生成用户和项目的文本表示。这些表示是基于用户的评论集合和项目评论集合生成的。 2. **将文本表示嵌入到推荐模型中**：使用预训练的语言模型（如MacBERT，一个针对中文的LLM）将生成的文本表示转换为数值表示，这些数值表示随后被用作推荐模型的输入。 3. **消融实验**：作者在不同的推荐任务上进行了消融实验，包括交互预测（预测用户是否会与特定项目互动）和直接推荐（推荐最可能符合用户偏好的项目）。他们比较了使用LLMs处理的表示与未处理的原始评论表示在推荐模型中的表现。 4. **案例研究分析**：通过手动观察和分析，作者评估了LLMs生成的文本表示的质量，以及它们是否包含额外的可观察属性和特征。 5. **性能评估**：在实验中，作者使用了多种统计方法（如余弦相似度、曼哈顿距离和欧几里得距离）来量化实验数据集和控制数据集之间的语义关系。他们还使用了推荐系统中常用的评估指标，如准确率、召回率、F1分数、HR@k和MRR@k，来评估推荐模型的性能。通过这些步骤，论文展示了LLMs在处理显式反馈和增强推荐系统性能方面的潜力，特别是在少样本场景下。作者发现，使用LLMs处理的表示在某些推荐模型中显著提高了性能，尤其是在结合神经网络的模型中。此外，LLMs的广泛适用性和处理文本信息的能力，即使在缺乏量化指标的情况下，也能增强推荐系统的泛化潜力。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验： 1. **数据集构建**：从公开的豆瓣中文电影数据集（Douban Chinese Moviedata-10M）中随机选择了1000名用户，并提取了这些用户的历史用户-项目交互样本。这些样本按时间顺序排序，最近两次交互的物品ID被提取作为测试和验证样本。其余的交互样本构成了用于输入ChatGPT以生成文本用户表示的训练数据集。为了模拟少样本场景，作者随机丢弃了多余的样本，同时确保至少保留每个用户的一个样本。此外，还构建了项目训练数据集，每个项目至少有一个对应的样本。 2. **表示生成**：使用MacBERT和Word2vec将文本用户和项目表示嵌入到推荐系统中，同时构建了控制数据集。 3. **语义距离评估**：量化了实验数据集（ChatGPT处理+MacBERT嵌入）和控制数据集（仅MacBERT嵌入）之间每个用户/项目表示的语义关系。使用了余弦相似度、曼哈顿距离和欧几里得距离作为统计方法。 4. **推荐任务性能比较**：在用户-项目交互和用户-项目嵌入上进行了消融实验，使用了线性、MLP和CNN模型进行交互预测任务，以及BPR-MF和NCF模型进行直接推荐任务。比较了使用ChatGPT处理的嵌入与仅使用MacBERT嵌入的控制数据集在这些推荐任务上的性能。 5. **案例研究**：对文本用户和项目表示进行了全面的案例研究，以补充发现并揭示嵌入过程中可能被忽视的信息。手动观察了ChatGPT处理的文本表示，并评估了它们在推荐模型中的有效性。这些实验旨在评估LLMs作为文本显式反馈处理方法在推荐系统中的有效性，特别是在少样本场景下。

Q: 有什么可以进一步探索的点？

A: 论文提出了以下几个可以进一步探索的点： 1. **集成更多基于神经网络的推荐模型**：作者提到他们计划将更多基于神经网络的推荐模型纳入研究，以进一步验证LLMs处理的嵌入在不同模型结构中的表现。 2. **探索业务应用**：论文中提到，ChatGPT生成的文本用户和项目表示在业务应用（如营销分析、广告生成）中具有潜力，这值得进一步探索。 3. **LLMs的持续进步**：随着LLMs技术的不断发展，未来可能会有更先进的模型出现，这些模型在关联和推理方面的能力可能会超过当前的ChatGPT。这些新模型在推荐系统中的表现将是有趣的研究方向。 4. **推荐系统的多方面作用**：论文中提到LLMs在推荐系统中的多方面作用，包括可解释性、冷启动挑战和模型增强，尤其是在涉及显式反馈的推荐系统中。这些领域都是未来研究的潜在方向。 5. **LLMs的泛化能力**：尽管LLMs在处理文本信息方面表现出色，但在少样本场景下，它们的泛化能力仍有待提高。研究如何提高LLMs在推荐系统中的泛化能力是一个重要的研究课题。 6. **模型结构和特性的影响**：论文中观察到模型结构和特性对LLMs处理的嵌入的表现有影响。深入理解这些影响，并探索如何优化模型结构以更好地利用LLMs的能力，是一个值得研究的问题。 7. **用户反馈的复杂性**：随着用户反馈变得越来越复杂和数量庞大，如何有效地处理这些反馈以提高推荐系统的性能是一个持续的挑战。研究LLMs在这方面的潜力和限制是有意义的。

Q: 总结一下论文的主要内容

A: 这篇论文探讨了如何利用大型语言模型（LLMs）来增强基于显式反馈的推荐系统在少样本（few-shot）场景下的性能。作者提出了一种方法，通过使用LLMs（如ChatGPT）处理用户和项目的文本评论，生成用户和项目的文本表示。这些表示随后被嵌入到推荐模型中，以评估它们在不同的推荐任务（如交互预测和直接推荐）中的表现。论文的主要内容包括： 1. **问题定义**：推荐系统在少样本场景下面临挑战，需要基于有限的用户信息提供推荐。LLMs，如ChatGPT，因其在自然语言处理（NLP）任务中的潜力，被提出作为解决这一问题的方案。 2. **方法论**：作者开发了一个提示模板，该模板利用LLMs处理电影评论以生成用户和项目的文本表示。这些表示随后被嵌入到推荐模型中，并在交互预测和直接推荐任务上进行评估。 3. **实验设计**：使用豆瓣电影数据集进行实验，构建了包含用户和项目文本表示的数据集，并将其与仅使用MacBERT嵌入的控制数据集进行比较。 4. **结果分析**：消融实验和案例研究分析表明，LLMs在处理显式反馈方面有效，能够作为推荐系统的组件，特别是在结合神经网络的模型中，显著提高了少样本场景下的性能。 5. **结论与展望**：作者认为LLMs的广泛应用和处理文本信息的能力可以增强推荐系统的泛化潜力。他们希望这项研究能激发更多关于LLMs在推荐系统中作用的探索，并为推荐系统领域的发展做出贡献。论文的主要贡献在于展示了LLMs在推荐系统中处理显式反馈的潜力，并提出了一种利用LLMs增强推荐系统性能的新方法。

2023 年 12 月 27 日

博客

KwaiAgents: 快手Agent系列

动态

评测表现

使用指南

AgentLMs 系列模型使用

Empowering Few-Shot Recommender Systems with Large Language Models — Enhanced Representations