标签： AGI

GPT4Rec：流式推荐中的图提示调优
在个性化推荐系统领域，适应不断变化的用户偏好以及新用户和新项目的持续涌入是一个重要的挑战。传统的推荐模型通常依赖于静态的训练-测试方法，难以跟上这些动态需求。流式推荐，尤其是通过连续图学习，已经成为一种新颖的解决方案，吸引了学术界和工业界的广泛关注。然而，现有的方法要么依赖于历史数据重放，这在数据隐私法规日益严格的情况下变得越来越不切实际；要么无法有效解决过度稳定性问题；要么依赖于模型隔离和扩展策略，这需要大量的模型扩展，由于参数集庞大而导致更新耗时。为了解决这些困难，我们提出了GPT4Rec，一种用于流式推荐的图提示调优方法。

1. 引言

推荐系统（RS）在塑造个性化体验方面变得不可或缺，广泛应用于电子商务、在线流媒体、网络搜索等多个领域。推荐系统不仅指导用户在海量选项中做出选择，还推动了用户参与和客户满意度，使其成为数字平台成功的关键因素。在解码复杂用户偏好的多种技术中，图神经网络（GNN）因其能够巧妙地揭示用户-项目交互的复杂模式，在提升推荐精度和效果方面表现突出。

然而，这些方法在现实世界中的应用往往未能兑现其通过基准数据集所做出的承诺。这种差异主要源于其传统的离线训练和测试方法。在这些场景中，模型在大型静态数据集上进行训练，然后在有限的测试集上进行评估，这一过程并未考虑现实世界数据的动态性质。与此形成鲜明对比的是，现实世界的推荐系统处于不断变化的状态，新用户偏好、项目和交互不断涌现，导致数据分布随时间变化。这不仅使得基于历史数据训练的模型难以有效处理新的多样化数据，同时在更新模型以适应新数据时，也面临着“灾难性遗忘”的风险。这一问题在推荐系统中尤为突出，因为保留旧的但相关的信息对于维持对用户偏好和行为的整体理解至关重要。

2. 相关工作

2.1 流式推荐

传统的推荐系统受到静态数据集的限制，难以预测不断变化的用户偏好和趋势。流式推荐是一种动态方法，通过随时间更新数据和模型来解决这些挑战。初期研究主要关注项目的流行度、新颖度和趋势分析，最近的进展则将协同过滤和矩阵分解方法引入流式推荐中。此外，在线聚类的Bandits和协同过滤Bandits方法也逐渐兴起。图神经网络在流式推荐模型中的应用因其复杂关系建模能力而受到关注，这一转变代表了该领域的重大进步。

2.2 连续学习

连续学习（CL）旨在通过策略防止灾难性遗忘，并实现知识转移。主要算法分为三类：经验重放、模型正则化和模型隔离。最近，连续图学习在流式推荐系统中的应用引起了广泛关注，其重点是处理按时间顺序连续到达的数据，而不仅仅是按任务分割的数据。

2.3 图提示调优

提示调优广泛应用于自然语言处理（NLP）和计算机视觉（CV）领域，旨在弥合预训练任务和微调任务之间的差距。最近，这一技术在图形场景中的应用也逐渐增多，凸显了其多样性和有效性。在图神经网络（GNN）领域，多种创新的提示调优方法相继出现，如GPPT、GraphPrompt和All-in-One等。

3. 预备知识

我们首先形式化流式推荐的连续图学习问题，然后简要介绍本文中使用的三种经典图卷积推荐模型。

3.1 定义与公式

定义 1. 流式推荐。大规模用户-项目交互数据 ˜𝐷 持续流入工业推荐系统。为了方便，连续的数据流被分割为具有相同时间跨度的连续数据段 𝐷1, …, 𝐷𝑡 , …, 𝐷𝑇。在每个时间段 𝑡，模型需要优化在 𝐷𝑡 上的推荐性能，同时继承 𝐷1, 𝐷2, …, 𝐷𝑡 −1 的知识。推荐性能沿整个时间线进行评估。

定义 2. 流式图。流式图表示为图的序列 𝐺 = (𝐺1, 𝐺2, …, 𝐺𝑡 , …𝐺𝑇)，其中 𝐺𝑡 = 𝐺𝑡 −1 + Δ𝐺𝑡。𝐺𝑡 在时间 𝑡 是一个带属性的图，包含邻接矩阵 𝐴𝑡 和节点特征 𝑋𝑡。Δ𝐺𝑡 = (Δ𝐴𝑡 , Δ𝑋𝑡) 表示图结构和节点属性的变化。

定义 3. 连续图学习。给定流式图 𝐺 = (𝐺1, 𝐺2, …, 𝐺𝑡 , …𝐺𝑇)，连续图学习（CGL）的目标是在序列学习 Δ𝐺𝑡 (𝐷𝑡) 的同时，有效转移历史知识到新图段。

4. 方法论

我们提出了GPT4Rec方法，以应对流式推荐中的连续图学习问题。首先，我们分解复杂的用户-项目交互图为多个视图，以捕捉图中的独特交互模式。然后，我们设计了节点级和结构级的提示，分别用于适应节点属性变化和图结构变化。最后，我们创新性地设计了跨视图级提示以聚合多视图信息。

4.1 复杂图的分解策略

用户-项目交互图因其动态和互连特性而复杂。GPT4Rec通过一系列线性变换将图分解为多个视图，每个视图捕捉特定的交互方面。这种分解允许模型分别处理不同级别的关系变化，从而提高模型的适应性和精确性。

4.2 提示设计

4.2.1 节点级提示

节点级提示主要针对图中单个节点的属性或特性，通过一组可学习参数引导模型适应节点特征的变化。这些提示通过上下文引导机制，在新数据到来时动态调整模型的关注点，使其能够快速适应新的节点特性。

4.2.2 结构级提示

结构级提示侧重于图中更广泛的连接模式和关系，通过消息传递机制适应整体图结构的变化。每个视图设计了一组可学习的结构级提示，以捕捉动态的图关系。

4.3 分解表示的聚合

多视图信息的聚合对于提供动态用户-项目交互的全面理解至关重要。我们提出了跨视图级提示来增强模型的动态适应性，通过更新一小组“代码簿”提示来调整注意力机制，从而高效地聚合多视图信息。

4.4 讨论

与传统的模型隔离和扩展方法不同，GPT4Rec通过一组上下文自适应提示实现知识的动态存储和适应。这些提示不直接存储知识，而是通过修改模型对新数据的解释和处理方式，以灵活、轻量的方式引导模型学习。

4.5 理论分析

我们进行了理论分析，以保证GPT4Rec在动态图上的正确性。理论分析表明，GPT4Rec至少具有与使用全数据进行全局微调相同的表达能力。

5. 实验

我们在四个真实世界的时间戳推荐数据集上进行了实验，以验证我们的提案。实验结果表明，GPT4Rec在各个数据集上均表现出色，显著优于现有基线方法。

6. 结论

本文提出了GPT4Rec，一种用于流式推荐的图提示调优方法。通过分解复杂的用户-项目交互图并设计多级提示，GPT4Rec能够高效地捕捉和适应动态交互模式，保持历史知识的完整性，并实现对新数据的快速适应。广泛的实验验证了GPT4Rec的有效性和效率。

参考文献
1. Kian Ahrabian, et al. “Structure aware experience replay for incremental learning in graph-based recommender systems.” CIKM (2021).
2. Jie Cai, et al. “Multimodal continual graph learning with neural architecture search.” WWW (2022).
3. Andreas Lommatzsch, et al. “Real-time recommendations for user-item streams.” SAC (2015).
4. Mingchen Sun, et al. “GPPT: Graph pre-training and prompt tuning to generalize graph neural networks.” KDD (2022).
本文展示了GPT4Rec在流式推荐系统中的应用，通过创新性的图提示调优方法，解决了传统方法在动态数据环境中的诸多挑战，为推荐系统的持续学习和适应性提供了新的思路。

GPT4Rec: A Summary and Analysis

The provided document introduces GPT4Rec, a novel approach for streaming recommendation using graph prompt tuning. Here’s a breakdown of the paper’s key aspects:

Problem: Traditional recommender systems struggle to adapt to the dynamic nature of user-item interactions. New users, items, and preferences constantly emerge, leading to a distribution shift between training and real-world data. This often results in catastrophic forgetting, where models lose valuable knowledge from past data while trying to learn from new information.

Existing Solutions and their limitations:
- Replay Buffer: These methods store a subset of past data and replay it during training. However, they are limited by buffer size and raise privacy concerns.
- Model Regularization: These techniques constrain model parameters to prevent drastic changes. However, they struggle when new data significantly deviates from past patterns.
- Model Isolation and Expansion: These approaches isolate old knowledge and create new learning spaces for new data. However, they lead to increased model complexity and slow updates.
GPT4Rec’s Approach:
1. Disentangling Complex Graphs: GPT4Rec divides the user-item interaction graph into multiple views using linear transformations. This allows the model to focus on specific aspects of the graph, such as user-to-item interactions or item-to-item similarities, without losing sight of the overall interconnectedness.
2. Adaptive Learning with Prompts: GPT4Rec employs three types of prompts to guide the model’s learning process:
  - Node-Level Prompts: These prompts capture changes in individual node attributes or properties. They are weighted based on their relevance to specific nodes, allowing the model to focus on the most pertinent information.
  - Structure-Level Prompts: These prompts capture broader patterns of connectivity and relationships within the graph. They decompose sub-graph structures into smaller, more manageable components, enabling the model to adapt to changes in the overall graph topology.
  - View-Level Prompts: These prompts aggregate information from the different disentangled views, ensuring a comprehensive understanding of the evolving graph.
Advantages of GPT4Rec:
- Efficient Adaptation: GPT4Rec’s prompt-based approach allows for rapid adaptation to new data streams without requiring extensive model modifications.
- Knowledge Preservation: By strategically utilizing prompts, GPT4Rec retains valuable knowledge from past data while effectively incorporating new information.
- Theoretical Guarantees: The paper provides theoretical analysis demonstrating that GPT4Rec possesses at least the expressive power of global fine-tuning.
Evaluation:

The paper claims that GPT4Rec outperforms state-of-the-art baselines on four real-world datasets, demonstrating its effectiveness for streaming recommendation.

Overall, GPT4Rec presents a promising solution for addressing the challenges of streaming recommendation by leveraging graph prompt tuning. Its ability to disentangle complex graphs, adapt to evolving data patterns, and preserve valuable knowledge makes it a significant contribution to the field.
2024 年 6 月 18 日
Pyraformer: 低复杂度金字塔注意力在长序列时间序列建模和预测中的应用
时间序列数据的分析和预测在许多领域中具有重要意义，如决策制定和风险管理。本文将介绍一种名为Pyraformer的新模型，该模型通过探索时间序列的多分辨率表示，提出了一种低复杂度的金字塔注意力机制用于长序列时间序列的建模和预测。

引言

时间序列预测是许多下游任务的基础，例如决策制定和风险管理。例如，在线流量的可靠预测可以为云系统中潜在风险提供早期预警，同时也为动态资源分配提供指导，以最小化成本而不降低性能。除了在线流量，时间序列预测在疾病传播、能源管理以及经济和金融等领域也有广泛应用。

时间序列预测的主要挑战在于构建一个强大但简洁的模型，能够紧凑地捕捉不同范围的时间依赖性。时间序列通常表现出短期和长期重复模式，考虑这些模式是精确预测的关键。特别是处理长范围依赖的任务更加困难，这通常通过信号传递路径的长度来衡量。路径越短，依赖关系捕捉得越好。同时，为了让模型学习这些长期模式，输入的历史数据也应该足够长。因此，低时间和空间复杂度是优先考虑的。

现有的最先进的方法难以同时实现这两个目标。RNN和CNN在时间复杂度方面表现良好，但它们的信号传递路径长度较长，难以学习远距离的位置依赖。另一方面，Transformer虽然缩短了信号传递路径，但增加了时间复杂度。为了在模型能力和复杂度之间找到平衡，出现了一些Transformer的变种，如Longformer、Reformer和Informer。然而，很少有方法能够在大幅降低时间和空间复杂度的同时实现短的最大路径长度。

Pyraformer模型概述

为了解决上述问题，本文提出了一种新型的基于金字塔注意力的Transformer模型（Pyraformer）。具体来说，开发了一种金字塔注意力机制，通过在金字塔图上基于注意力的消息传递来描述时间序列的时间依赖性。该图中的边可分为两组：跨尺度和同尺度连接。跨尺度连接构建了原始序列的多分辨率表示，而同尺度连接捕捉了各分辨率下的时间依赖性。这样，该模型通过在较粗的分辨率下捕捉长范围的行为，提供了对远距离位置之间长期时间依赖性的紧凑表示，从而缩短了信号传递路径的长度。此外，在不同尺度上通过稀疏的邻接同尺度连接建模不同范围的时间依赖性显著降低了计算成本。

金字塔注意力模块（PAM）

金字塔注意力模块（PAM）是Pyraformer的核心。通过金字塔图以多分辨率的方式描述观察到的时间序列的时间依赖性。金字塔图可以分解为两部分：跨尺度和同尺度连接。跨尺度连接形成了一棵C叉树，其中每个父节点有C个子节点。例如，如果将金字塔图的最细尺度与原始时间序列的小时观察值相关联，则较粗尺度的节点可以看作是时间序列的每日、每周甚至每月模式。因此，金字塔图提供了原始时间序列的多分辨率表示。此外，通过简单地连接邻近节点来捕捉各分辨率下的时间依赖性，可以在较粗尺度上更容易地捕捉长范围依赖性。

粗尺度构建模块（CSCM）

CSCM的目标是初始化金字塔图在较粗尺度上的节点，从而促进后续的PAM在这些节点之间交换信息。具体来说，通过在对应的子节点上执行卷积操作，逐层引入粗尺度节点。卷积层的步长和核大小均为C，经过多层卷积操作后，得到不同尺度上的序列，形成一棵C叉树。为了减少参数和计算量，在输入嵌入序列到卷积层之前，通过全连接层减少每个节点的维度，并在所有卷积操作完成后恢复原始维度。

预测模块

对于单步预测，在输入嵌入层之前，向历史序列的末尾添加一个结束标记。在PAM编码序列后，收集金字塔图中所有尺度上的最后一个节点的特征，进行串联后通过全连接层进行预测。

对于多步预测，提出了两种预测模块。第一种与单步预测模块相同，但将所有尺度上的最后一个节点映射到所有未来时间步。第二种则采用具有两个全注意力层的解码器。具体来说，类似于原始Transformer，将未来时间步的观测值替换为0，嵌入它们并将观测值、协变量和位置嵌入的和称为“预测标记”。第一个注意力层将预测标记作为查询，PAM的输出作为键和值，生成解码器输出。第二层将解码器输出作为查询，解码器输出和PAM的输出作为键和值。历史信息直接输入到两个注意力层中，因为这些信息对精确的长范围预测至关重要。

实验结果与分析

在四个真实世界数据集上进行了广泛的实验，包括Wind、App Flow、Electricity和ETT。结果显示，Pyraformer在单步和长范围多步预测任务中表现出色，且时间和内存消耗较低。

单步预测

在Electricity、Wind和App Flow数据集上进行了单步预测实验。结果表明，Pyraformer在NRMSE和ND指标上优于其他Transformer变种，且具有最少的查询-键点积数量。

长范围多步预测

在Electricity、ETTh1和ETTm1数据集上进行了长范围多步预测实验。结果显示，无论预测长度如何，Pyraformer在所有数据集上的表现均优于其他模型，并且具有最少的查询-键点积数量。

计算时间和内存消耗

通过实验验证了基于TVM实现的定制CUDA内核的效率。结果表明，Pyraformer的时间和内存消耗与序列长度近似呈线性关系，且显著低于全注意力和概率稀疏注意力机制，特别是对于较长的时间序列。

结论与展望

本文提出了Pyraformer，一种基于金字塔注意力的新型模型，能够在低时间和空间复杂度下有效描述短期和长期时间依赖性。实验结果表明，Pyraformer在单步和长范围多步预测任务中均优于现有最先进模型，且计算时间和内存消耗较低。未来的工作将探索如何从数据中自适应地学习超参数，并将Pyraformer扩展到自然语言处理和计算机视觉等其他领域。

参考文献
- Shizhan Liu, Hang Yu, Cong Liao, Jianguo Li, Weiyao Lin, Alex X. Liu, Schahram Dustdar. “Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting.” ICLR 2022. PDF
- Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.
- Zhou, Haoyi, et al. “Informer: Beyond efficient transformer for long sequence time-series forecasting.” AAAI. 2021.
- Beltagy, Iz, Matthew E. Peters, and Arman Cohan. “Longformer: The long-document transformer.” arXiv preprint arXiv:2004.05150 (2020).
- Kitaev, Nikita, Łukasz Kaiser, and Anselm Levskaya. “Reformer: The efficient transformer.” International Conference on Learning Representations. 2019.
Summary of “Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting”

This paper proposes Pyraformer, a novel Transformer-based model designed to address the challenges of long-range time series forecasting. The key innovation lies in its pyramidal attention module (PAM), which efficiently captures both short-term and long-term dependencies in time series data.

Here’s a breakdown of the paper’s key aspects:

Problem: Existing time series forecasting methods struggle to balance computational efficiency with the ability to capture long-range dependencies. RNNs and CNNs are efficient but struggle with long sequences, while Transformers, while good at capturing long-range dependencies, suffer from quadratic complexity.

Proposed Solution: Pyraformer
- Pyramidal Attention Module (PAM):
  - Employs a multi-resolution pyramidal graph to represent the time series.
  - Inter-scale connections: Form a C-ary tree where each level summarizes information at a different resolution (e.g., hourly, daily, weekly).
  - Intra-scale connections: Capture temporal dependencies within each resolution by connecting neighboring nodes.
  - This structure allows for efficient modeling of long-range dependencies by capturing them at coarser resolutions.
- Coarser-Scale Construction Module (CSCM): Initializes the nodes at coarser scales using convolutions applied to finer-scale representations.
- Prediction Module:
  - Single-step forecasting: Gathers features from all scales and uses a fully connected layer for prediction.
  - Multi-step forecasting: Offers two options:
    
    Similar to single-step but maps to multiple future time steps.
    
    Utilizes a decoder with two full attention layers for incorporating historical information.
Advantages:
- Low Complexity: Achieves linear time and space complexity (O(L)) thanks to the sparse connections in the pyramidal graph.
- Long-Range Dependency Capture: Maintains a constant maximum signal traversing path length (O(1)), enabling efficient modeling of long-range dependencies.
- Improved Accuracy: Outperforms existing methods in both single-step and long-range multi-step forecasting tasks.
Key Results:
- Pyraformer consistently achieves higher prediction accuracy compared to other Transformer variants and traditional methods on various real-world datasets.
- It achieves this while maintaining significantly lower time and memory consumption, especially for long sequences.
Overall, Pyraformer presents a promising solution for long-range time series forecasting by effectively balancing model complexity and the ability to capture long-term dependencies.
2024 年 6 月 18 日

标签： AGI

GPT4Rec：流式推荐中的图提示调优

1. 引言

2. 相关工作

2.1 流式推荐

2.2 连续学习

2.3 图提示调优

3. 预备知识

3.1 定义与公式

4. 方法论

4.1 复杂图的分解策略

4.2 提示设计

4.2.1 节点级提示

4.2.2 结构级提示

4.3 分解表示的聚合

4.4 讨论

4.5 理论分析

5. 实验

6. 结论

参考文献

GPT4Rec: A Summary and Analysis

Pyraformer: 低复杂度金字塔注意力在长序列时间序列建模和预测中的应用

引言

Pyraformer模型概述

金字塔注意力模块（PAM）

粗尺度构建模块（CSCM）

预测模块

实验结果与分析

单步预测

长范围多步预测

计算时间和内存消耗

结论与展望

参考文献

Summary of “Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting”