作者： admin

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA
最近，幻方发布的DeepSeek-V2引发了广泛关注。它不仅以每百万token仅需1块钱的价格震惊了大家，比现有的API便宜了两个数量级，甚至有人开玩笑说：“这个价格哪怕输出乱码，我也会认为是一种艺术。” 从技术报告来看，这样低廉价格背后的关键技术之一是新提出的MLA（Multi-head Latent Attention），这是对GQA的改进。据说这种改进不仅更加高效，还能提高性能，引起了许多读者的兴趣。本文将带大家梳理从MHA、MQA、GQA到MLA的演变过程，并重点介绍MLA的设计思路。

MHA: 多头注意力

首先，我们来看看MHA（Multi-Head Attention），即多头注意力。这是经典论文《Attention is All You Need》中提出的一种注意力机制，可以说是当前主流大规模语言模型（LLM）的基础。

简单来说，多头注意力将输入的向量序列分成多个部分，每部分单独计算注意力，然后再将结果拼接在一起。具体公式如下：

$\begin{aligned}\boldsymbol{o}<em>t &= \left[\boldsymbol{o}_t^{(1)}, \boldsymbol{o}_t^{(2)}, \cdots, \boldsymbol{o}_t^{(h)}\right] \ \boldsymbol{o}_t^{(s)} &= Attention\left(\boldsymbol{q}_t^{(s)}, \boldsymbol{k}</em>{\leq t}^{(s)} ,\boldsymbol{v}_{\leq t}^{(s)}\right) \\boldsymbol{q}_i^{(s)} &= \boldsymbol{x}_i\boldsymbol{W}_q^{(s)} \\boldsymbol{k}_i^{(s)} &= \boldsymbol{x}_i\boldsymbol{W}_k^{(s)} \\boldsymbol{v}_i^{(s)} &= \boldsymbol{x}_i\boldsymbol{W}_v^{(s)}\end{aligned}$

其中， $\boldsymbol{q}_i^{(s)}$ ， $\boldsymbol{k}_i^{(s)}$ ， $\boldsymbol{v}_i^{(s)}$ 分别表示查询、键和值向量，它们是通过与不同的权重矩阵相乘得到的。

在实际应用中，我们经常设置 $d_k = d_v = d / h$ ，即将向量的维度平均分配到每个头。例如，在LLAMA2-7b模型中， $d=4096$ ， $h=32$ ，所以 $d_k = d_v = 128$ 。

KV缓存的重要性

在自回归语言模型中，我们可以缓存已计算的 $\boldsymbol{k}$ 和 $\boldsymbol{v}$ 值以供后续使用，这就是所谓的KV Cache。这可以避免重复计算，提高推理效率。然而，KV Cache的大小对GPU显存提出了很高的要求。因此，如何减少KV Cache的大小，同时尽可能保证模型效果，成为了一个重要的研究方向。

MQA, GQA到MLA的演变

为了解决KV Cache的问题，研究人员提出了MQA（Multi-Query Attention）、GQA（Grouped Query Attention）等改进方法。MQA通过共享查询向量来减少计算量，而GQA通过分组的方式降低KV Cache的存储需求。这些改进在一定程度上解决了KV Cache的问题，但仍有优化空间。

MLA（Multi-head Latent Attention）是最新的改进，它在GQA的基础上进一步优化。MLA的设计思路是通过引入潜在变量来更高效地管理注意力机制，从而在减少KV Cache大小的同时，依然保持甚至提升模型的性能。

结语

从MHA到MLA，注意力机制不断发展，每一步的改进都在努力平衡计算效率和模型效果。DeepSeek-V2的MLA技术展示了在这一领域的最新进展，预示着未来大规模语言模型在性能和成本上的进一步突破。希望这篇文章能帮助大家更好地理解这些技术背后的原理和演变过程。

根据DeepSeek-V2论文（https://arxiv.org/pdf/2405.04434），多头潜在注意力（Multi-head Latent Attention, MLA）机制旨在提高推理效率，同时保持高性能。这种机制通过低秩键值联合压缩（Low-rank Key-Value Joint Compression）显著减少了KV缓存，从而在推理过程中提高了效率。以下是对MLA机制的详细解析：

1. 预备知识：标准多头注意力（MHA）

在解释MLA之前，需要理解标准多头注意力（Multi-Head Attention, MHA）。MHA通过并行计算多个注意力头来捕捉不同的注意力模式，每个注意力头都有独立的查询（Query）、键（Key）和值（Value）向量。具体步骤如下：
- 输入分割：输入序列被分割成多个头，每个头对应不同的查询、键和值向量。
- 序列处理：每个头独立处理其对应的查询、键和值向量，通过点积计算注意力权重，并加权求和得到每个头的输出。
- 头合并：所有头的输出被拼接并通过线性变换生成最终输出。
MHA的主要问题在于KV缓存的大小，尤其是在长序列推理时，这会显著降低效率。

2. 低秩键值联合压缩

MLA通过低秩键值联合压缩来解决上述问题。具体步骤如下：
- 键值压缩：MLA将键和值向量联合压缩成一个低秩潜在向量，以减少缓存的存储需求。具体实现是通过矩阵分解技术，将高维的键和值向量映射到低维空间。
- 潜在表示：在低维空间中，键和值向量被表示为潜在向量，这些潜在向量可以在推理阶段快速检索，从而减少计算开销。
3. 解耦旋转位置嵌入

为了进一步提高效率，MLA引入了解耦旋转位置嵌入（Decoupled Rotary Position Embedding, RoPE）。这项技术允许在不同注意力头之间共享位置信息，从而减少了计算复杂度。

4. KV缓存比较

MLA与传统的MHA相比，显著减少了KV缓存的大小。论文中提到，MLA能够在保持高性能的同时，将KV缓存减少93.3%。这一改进在长序列推理任务中尤为显著，因为KV缓存的减小直接提高了推理速度和效率。

结论

MLA机制通过低秩键值联合压缩和解耦旋转位置嵌入，在减少KV缓存的同时，显著提高了推理效率。与传统的MHA相比，MLA在不牺牲性能的前提下，实现了更高的推理效率。这使得DeepSeek-V2能够在保持高性能的同时，显著降低推理成本。

希望以上解析能帮助你更好地理解MLA机制。如果有更多问题，欢迎随时询问。

在MLA（Multi-head Latent Attention）中，通过低秩键值联合压缩实现了将高维的键（Key）和值（Value）向量压缩成低维的潜在向量，从而保留重要信息并减少存储和处理的数据量。以下是具体实现的步骤和方法：

1. 低秩矩阵分解

低秩矩阵分解是实现压缩的核心技术。它通过将高维矩阵分解为两个或多个低维矩阵的乘积来减少数据的维度。具体来说，假设我们有一个高维的键矩阵 ( K ) 和一个值矩阵 ( V )，我们可以使用低秩矩阵分解将它们压缩为低维矩阵。

2. 键和值矩阵的联合压缩

在MLA中，键和值矩阵 ( K ) 和 ( V ) 被联合压缩成潜在向量。这个过程可以通过以下步骤实现：
- 初始矩阵：
- ( K \in \mathbb{R}^{n \times d_k} ) ：键矩阵，维度为 ( n \times d_k )。
- ( V \in \mathbb{R}^{n \times d_v} ) ：值矩阵，维度为 ( n \times d_v )。
- 低秩分解：
- 将键矩阵 ( K ) 和值矩阵 ( V ) 分解成低秩矩阵。假设我们使用秩 ( r ) 进行分解：
  - ( K \approx K_L K_R )，其中 ( K_L \in \mathbb{R}^{n \times r} )，( K_R \in \mathbb{R}^{r \times d_k} )。
  - ( V \approx V_L V_R )，其中 ( V_L \in \mathbb{R}^{n \times r} )，( V_R \in \mathbb{R}^{r \times d_v} )。
- 联合压缩：
- 将键和值矩阵联合表示为潜在向量 ( Z )：
  - ( Z = K_L = V_L \in \mathbb{R}^{n \times r} )。
通过这种方式，键和值矩阵被压缩到相同的低维潜在空间中。

3. 潜在向量的使用

在推理过程中，潜在向量 ( Z ) 被用于计算注意力权重和输出：
- 注意力权重计算：
- 使用低维潜在向量 ( Z ) 来计算注意力权重，而不是直接使用高维的键和值向量。这可以通过点积计算或其他注意力机制实现。
- 加权求和：
- 将计算得到的注意力权重应用于值矩阵 ( V ) 的低秩表示 ( V_R )，并进行加权求和，得到最终的输出。
4. 优势
- 减少存储需求：通过压缩键和值矩阵，显著减少了KV缓存的大小，从而降低了存储需求。
- 提高计算效率：低维的潜在向量使得计算注意力权重和输出更加高效，减少了计算复杂度。
总结

通过低秩键值联合压缩，MLA成功地将高维的键和值向量压缩成低维的潜在向量。这些潜在向量在保留重要信息的同时，显著减少了需要存储和处理的数据量，从而提高了推理效率和性能。具体而言，低秩矩阵分解技术是实现这一压缩过程的关键，通过将高维矩阵分解为低维矩阵的乘积，达到了有效的压缩效果。
2024 年 5 月 14 日
优化高负载TCP服务器的一些常见策略和诊断方法
1. 优化内核参数

优化内核参数是提高高负载TCP服务器性能的一个重要方面。以下是一些常见的内核参数，可以通过调整这些参数来增强TCP服务器的处理能力：
- net.core.somaxconn：定义了系统中每个监听套接字可排队的最大连接数。这影响的是全连接（accept队列）。
- net.ipv4.tcp_max_syn_backlog：定义了在SYN_RECV状态下最多可以有多少个连接请求。这影响的是半连接（SYN队列）。
- net.ipv4.tcp_fin_timeout：设置TCP连接在FIN_WAIT_2状态下的超时时间，可以帮助更快地释放资源。
- net.ipv4.tcp_tw_reuse 和 net.ipv4.tcp_tw_recycle：这两个参数可以帮助快速回收处于TIME_WAIT状态的连接（注意：在某些情况下，启用这些参数可能会有安全和可靠性问题，需慎重考虑）。
2. 半连接和全连接队列满的影响
- 半连接队列（SYN队列）：当一个客户端发起TCP连接时，服务器会在接收到SYN包时将其放入半连接队列。如果这个队列满了，服务器会直接丢弃新的SYN请求，导致客户端无法建立连接。
- 全连接队列（accept队列）：当TCP连接完成三次握手后，连接会被移至全连接队列。如果这个队列满了，服务器将无法接受新的连接，导致客户端连接超时。
3. 从系统日志中分析

系统日志可以提供有价值的信息来判断是哪种队列满了。日志中可能会有关于丢包、连接超时或其他网络异常的提示信息，这些信息可以帮助定位问题的根源。

4. 抓包分析

如果上述方法无法解决问题，抓包是下一步的诊断措施。通过抓包，可以分析网络流量，查看是否存在以下情况：
- SYN包无响应：可能是服务器没有及时处理SYN请求，或者是网络问题导致的丢包。
- ACK包无响应：可能是三次握手中的ACK没有被正确处理，导致连接无法建立。
- RST包：查看是否有大量的重置包，可能是服务器主动拒绝连接。
抓包可以使用工具如 tcpdump 或 Wireshark，并结合服务器日志进行综合分析。

结论

以上建议涵盖了优化TCP服务器和诊断连接问题的核心方法。通过调整内核参数，可以提升服务器在高负载下的处理能力；通过分析系统日志，可以初步判断问题；通过抓包，可以深入了解网络通信的具体问题。这一系列步骤相辅相成，可以有效地提升服务器的性能和稳定性。

优化内核参数时，具体数值需要根据服务器的硬件配置、网络环境以及应用的负载情况来调整。以下是一些常见的内核参数及其参考值，可以作为初始配置进行尝试：

1. net.core.somaxconn

这个参数定义了系统中每个监听套接字可排队的最大连接数（全连接队列）。默认值通常是128，可以增加到更高的值来应对高并发连接。
```
sysctl -w net.core.somaxconn=1024
```
2. net.ipv4.tcp_max_syn_backlog

这个参数定义了在SYN_RECV状态下最多可以有多少个连接请求（半连接队列）。默认值通常是256，可以增加到更高的值以支持更多的未完成连接。
```
sysctl -w net.ipv4.tcp_max_syn_backlog=2048
```
3. net.ipv4.tcp_fin_timeout

这个参数设置TCP连接在FIN_WAIT_2状态下的超时时间。默认值通常是60秒，可以减小该值以更快地回收资源。
```
sysctl -w net.ipv4.tcp_fin_timeout=30
```
4. net.ipv4.tcp_tw_reuse

这个参数允许TIME_WAIT套接字被重新用于新的TCP连接。启用此参数可以更快地回收TIME_WAIT状态的套接字。
```
sysctl -w net.ipv4.tcp_tw_reuse=1
```
5. net.ipv4.tcp_tw_recycle

这个参数允许快速回收TIME_WAIT状态的套接字。注意：由于此参数可能会导致NAT环境下的连接问题，不推荐在公网服务器上使用。
```
sysctl -w net.ipv4.tcp_tw_recycle=0
```
6. net.ipv4.ip_local_port_range

这个参数定义了可用于TCP/UDP连接的本地端口范围。默认范围通常是32768到60999，可以扩展这个范围以支持更多的并发连接。
```
sysctl -w net.ipv4.ip_local_port_range="1024 65535"
```
7. net.ipv4.tcp_syncookies

这个参数可以防止SYN flood攻击。启用此参数可以在SYN队列满时启用syncookies机制。
```
sysctl -w net.ipv4.tcp_syncookies=1
```
8. net.core.netdev_max_backlog

这个参数定义了每个网络接口接收队列的最大长度。默认值通常是1000，可以增加到更高的值以处理更多的网络流量。
```
sysctl -w net.core.netdev_max_backlog=5000
```
应用配置

将以上配置写入 /etc/sysctl.conf 文件中，以便在系统重启时自动应用：
```
net.core.somaxconn=1024
net.ipv4.tcp_max_syn_backlog=2048
net.ipv4.tcp_fin_timeout=30
net.ipv4.tcp_tw_reuse=1
net.ipv4.tcp_tw_recycle=0
net.ipv4.ip_local_port_range=1024 65535
net.ipv4.tcp_syncookies=1
net.core.netdev_max_backlog=5000
```
然后，通过以下命令立即生效：
```
sysctl -p
```
结论

以上提供的数值只是初始参考，实际生产环境中需要根据具体负载情况进行监控和调整。不断进行性能测试和监控，以找到最适合的配置。

这些内核参数能显著影响TCP高负载服务的性能，因为它们直接控制了操作系统处理网络连接的方式。让我们详细探讨每个参数如何影响TCP服务器的性能：

1. net.core.somaxconn
- 作用：定义了系统中每个监听套接字可排队的最大连接数（全连接队列）。
- 影响：当服务器处理完三次握手后，连接会被放入全连接队列。如果这个队列太小，高并发时新的连接请求可能会被拒绝，导致客户端无法连接。
2. net.ipv4.tcp_max_syn_backlog
- 作用：定义了SYN_RECV状态下最多可以有多少个连接请求（半连接队列）。
- 影响：当大量客户端同时发起连接请求时，如果半连接队列太小，新的SYN请求会被丢弃，导致客户端无法建立连接。适当增大这个值可以处理更多的并发SYN请求。
3. net.ipv4.tcp_fin_timeout
- 作用：设置TCP连接在FIN_WAIT_2状态下的超时时间。
- 影响：这个参数控制连接关闭后资源的释放时间。较短的超时时间可以更快地回收资源，减少资源占用，适用于高并发短连接的场景。
4. net.ipv4.tcp_tw_reuse
- 作用：允许TIME_WAIT状态的套接字被重新用于新的连接。
- 影响：启用此参数可以更快地回收TIME_WAIT状态的套接字，减少TIME_WAIT状态的连接数量，适用于服务器需要频繁建立和关闭连接的情况。
5. net.ipv4.tcp_tw_recycle
- 作用：允许快速回收TIME_WAIT状态的套接字。
- 影响：可以加速TIME_WAIT连接的回收，但在NAT环境下可能导致连接问题，因此不推荐在公网服务器上使用。
6. net.ipv4.ip_local_port_range
- 作用：定义可用于TCP/UDP连接的本地端口范围。
- 影响：增大本地端口范围可以支持更多的并发连接，防止端口耗尽的问题，适用于高并发的网络服务。
7. net.ipv4.tcp_syncookies
- 作用：防止SYN flood攻击，通过启用syncookies机制在SYN队列满时仍能处理连接请求。
- 影响：可以在SYN flood攻击下保护服务器，使其仍能响应合法连接请求，提升服务器的抗攻击能力。
8. net.core.netdev_max_backlog
- 作用：定义每个网络接口接收队列的最大长度。
- 影响：增大这个值可以缓解网络拥塞，防止网络接口因过多的数据包而丢包，适用于高流量的网络环境。
总结

这些内核参数影响TCP高负载服务性能的主要原因在于它们控制了系统如何处理和管理网络连接及其资源。在高并发场景下，适当地调整这些参数可以：
- 提高连接请求的处理能力。
- 优化资源回收，使系统更高效。
- 增强抗攻击能力，确保服务稳定性。
通过合理配置这些参数，服务器可以更好地应对大量并发连接，提高整体性能和稳定性。

这些内核参数对不同的服务器配置会产生不同的影响。服务器的硬件配置、网络环境和负载情况都会影响这些参数的最佳值。以下是一些关键因素和它们与内核参数的关系：

1. 服务器硬件配置

CPU和内存
- 高性能CPU和大内存：对于拥有高性能CPU和大内存的服务器，可以设置更高的参数值，因为这些服务器能够处理更多的并发连接和更高的网络流量。
- 低性能CPU和少内存：对于资源有限的服务器，设置过高的参数值可能导致资源耗尽和系统不稳定。因此，需要找到一个平衡点，避免过度配置。
网络接口
- 高速网络接口（如10Gbps或更高）：这些接口可以处理大量的网络流量，因此需要较高的net.core.netdev_max_backlog值以防止丢包。
- 低速网络接口（如1Gbps或更低）：较低的网络接口可能不需要非常高的net.core.netdev_max_backlog值，因为接口本身的流量处理能力有限。
2. 网络环境

网络拓扑
- 内网环境：在内网环境中，可以利用net.ipv4.tcp_tw_recycle加速TIME_WAIT状态的回收，因为内网中通常没有复杂的NAT问题。
- 公网环境：在公网环境中，不推荐使用net.ipv4.tcp_tw_recycle，因为它可能导致NAT环境下的连接问题。
网络负载
- 高并发连接：需要适当提高net.core.somaxconn和net.ipv4.tcp_max_syn_backlog以处理更多的并发连接请求。
- 低并发连接：这些参数的默认值可能已经足够，不需要进行过多调整。
3. 应用负载

高并发短连接（如HTTP服务器）
- 优化方向：需要快速回收连接资源，因此可以减小net.ipv4.tcp_fin_timeout和启用net.ipv4.tcp_tw_reuse。
- 注意事项：确保不会因过多的TIME_WAIT状态导致端口耗尽。
长连接（如数据库服务器）
- 优化方向：更关注连接的稳定性，可能不需要频繁调整tcp_fin_timeout和tcp_tw_reuse。
- 注意事项：确保连接队列足够长以处理突发的连接请求。
具体示例

高性能Web服务器（多核CPU、大内存、10Gbps网络接口）
```
sysctl -w net.core.somaxconn=4096
sysctl -w net.ipv4.tcp_max_syn_backlog=8192
sysctl -w net.ipv4.tcp_fin_timeout=15
sysctl -w net.ipv4.tcp_tw_reuse=1
sysctl -w net.ipv4.tcp_tw_recycle=0
sysctl -w net.ipv4.ip_local_port_range="1024 65535"
sysctl -w net.ipv4.tcp_syncookies=1
sysctl -w net.core.netdev_max_backlog=10000
```
资源有限的内部应用服务器（双核CPU、4GB内存、1Gbps网络接口）
```
sysctl -w net.core.somaxconn=1024
sysctl -w net.ipv4.tcp_max_syn_backlog=2048
sysctl -w net.ipv4.tcp_fin_timeout=30
sysctl -w net.ipv4.tcp_tw_reuse=1
sysctl -w net.ipv4.tcp_tw_recycle=0
sysctl -w net.ipv4.ip_local_port_range="32768 60999"
sysctl -w net.ipv4.tcp_syncookies=1
sysctl -w net.core.netdev_max_backlog=2000
```
结论

不同的服务器配置和使用场景需要不同的内核参数调整策略。高性能服务器可以承受更高的参数值，以充分利用其硬件资源和网络能力，而资源有限的服务器需要更谨慎地调整参数，以避免资源耗尽和系统不稳定。通过性能测试和监控，可以找到最适合特定环境和负载的参数配置。

避免系统TCP半连接或全连接队列满的情况，通常需要从以下几个方面入手：调整系统参数、优化应用程序、增强硬件资源等。以下是一些具体的方法和建议：

调整系统参数
1. 增大全连接队列大小 (net.core.somaxconn)：
```
   sysctl -w net.core.somaxconn=4096
```
该参数定义了全连接队列的最大长度。通过增大这个值，可以允许更多的已完成三次握手的连接排队等待应用程序处理。
1. 增大半连接队列大小 (net.ipv4.tcp_max_syn_backlog)：
```
   sysctl -w net.ipv4.tcp_max_syn_backlog=8192
```
该参数定义了半连接队列的最大长度。通过增大这个值，可以处理更多的SYN请求，避免在高并发情况下丢失连接请求。
1. 启用Syn Cookies (net.ipv4.tcp_syncookies)：
```
   sysctl -w net.ipv4.tcp_syncookies=1
```
Syn Cookies 是一种防止SYN Flood攻击的方法。当半连接队列满时，启用Syn Cookies可以确保服务器仍然能够处理新的SYN请求，避免拒绝合法的连接请求。

优化应用程序
1. 提高应用程序处理连接的速度：确保应用程序能够快速处理新连接，减少连接在队列中的等待时间。这可以通过优化代码、使用更高效的算法和数据结构来实现。
2. 使用异步I/O或多线程/多进程模型：采用异步I/O（如epoll、kqueue）或多线程/多进程模型来处理高并发连接，可以显著提高应用程序的处理能力。
3. 合理设置连接超时：确保应用程序设置了合理的连接超时，以便及时关闭空闲或无效的连接，释放资源。
增强硬件资源
1. 升级服务器硬件：提高服务器的CPU、内存和网络接口的性能，可以增强服务器处理并发连接的能力。
2. 使用负载均衡：通过负载均衡器（如Nginx、HAProxy）将流量分发到多个后端服务器，减轻单个服务器的压力。
网络配置和架构优化
1. 分布式架构：使用分布式系统架构，将负载分散到多个节点上，减少单点压力。
2. 优化网络拓扑：确保网络拓扑结构合理，减少网络瓶颈，提升整体网络性能。
持续监控和调整
1. 监控系统和应用性能：使用监控工具（如Prometheus、Grafana）监控系统的队列长度、连接数、CPU、内存等指标，及时发现和解决性能瓶颈。
2. 定期调整参数：根据监控数据和实际负载情况，定期调整系统参数，以适应变化的业务需求。
示例配置

以下是一个示例的sysctl配置文件，用于调整TCP参数以应对高并发连接：
```
# 增大全连接队列大小
net.core.somaxconn=4096

# 增大半连接队列大小
net.ipv4.tcp_max_syn_backlog=8192

# 启用Syn Cookies
net.ipv4.tcp_syncookies=1

# 减少TIME_WAIT状态连接的生命周期
net.ipv4.tcp_fin_timeout=15

# 允许TIME_WAIT状态的套接字被快速重用
net.ipv4.tcp_tw_reuse=1

# 设置本地端口范围
net.ipv4.ip_local_port_range="1024 65535"

# 增大网络接口接收队列大小
net.core.netdev_max_backlog=5000
```
将以上配置添加到/etc/sysctl.conf文件中，并通过以下命令使其生效：
```
sysctl -p
```
通过以上方法，可以有效避免系统TCP半连接或全连接队列满的情况，提高服务器在高并发场景下的性能和稳定性。

关于65536端口以及TCP连接的相关问题

根据《百万并发连接、65536和Linux TCP/IP 性能优化》，以下是一些关键要点：

端口号的范围和使用
- 在TCP协议中，端口号占用两个字节，即16位，所以总共有2^16=65536个端口号。
- 系统通常保留0-1023端口作为知名服务端口，因此实际可用的端口数为65536 – 1024 = 64512个。
- 作为客户端，同一时刻对同一个服务器同一个端口可以创建最多64512个TCP连接。
服务器的连接限制
- 服务器没有“65536”端口数量的限制。服务器可以处理多少客户端连接，取决于服务器的CPU、内存等硬件资源。
- 一个TCP连接的唯一性由以下四元组决定：ServerIP, ServerPort, ClientIP, ClientPort。因此，服务器可以与多个客户端建立大量的并发连接。
套接字和端口的误解
- 接受（accept）之后产生的已连接套接字不会占用新的端口。新生成的套接字文件描述符（socket fd）用于区分客户端连接，其中包含客户端的IP和端口信息。
百万并发连接的系统配置

为了支持大量的并发连接，可以对系统进行以下优化配置：

文件描述符数量
```
sysctl -w fs.file-max=10485760 # 系统允许的文件描述符数量设置为1000万
ulimit -n 1048576 # 单个进程的最大文件描述符数设置为100万
echo '* soft nofile 1048576' >> /etc/security/limits.conf
echo '* hard nofile 1048576' >> /etc/security/limits.conf
```
TCP读写缓冲区大小
```
sysctl -w net.ipv4.tcp_rmem=1024 # 每个TCP连接的读取缓冲区设置为1k
sysctl -w net.ipv4.tcp_wmem=1024 # 每个TCP连接的写入缓冲区设置为1k
```
本地端口范围
```
sysctl -w net.ipv4.ip_local_port_range='1024 65535'
```
TIME_WAIT连接的处理
```
sysctl -w net.ipv4.tcp_tw_recycle=1  # 快速回收TIME_WAIT的连接
sysctl -w net.ipv4.tcp_tw_reuse=1    # 允许将TIME-WAIT sockets重新用于新的TCP连接
sysctl -w net.ipv4.tcp_max_tw_buckets=10000 # 系统同时保持TIME_WAIT套接字的最大数量
```
其他重要参数
```
sysctl -w net.core.netdev_max_backlog=400000 # 网络设备接收数据包的队列最大数目
sysctl -w net.core.somaxconn=100000 # socket监听的backlog上限
sysctl -w net.ipv4.tcp_max_syn_backlog=8192 # SYN队列长度
sysctl -w net.ipv4.tcp_syncookies=1 # 开启SYN Cookies
sysctl -w net.ipv4.tcp_timestamps=1 # 开启TCP时间戳
sysctl -w net.ipv4.tcp_fin_timeout=10 # FIN-WAIT-2状态的保持时间
sysctl -w net.ipv4.tcp_keepalive_time=1800 # keepalive消息的发送频度
sysctl -w net.ipv4.tcp_keepalive_probes=3 # keepalive探测包的发送次数
sysctl -w net.ipv4.tcp_keepalive_intvl=15 # keepalive探测包的发送间隔
```
通过以上配置，可以显著提升Linux系统的TCP/IP性能，支持大规模的并发连接。
2024 年 5 月 14 日

作者： admin

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

MHA: 多头注意力

KV缓存的重要性

MQA, GQA到MLA的演变

结语

1. 预备知识：标准多头注意力（MHA）

2. 低秩键值联合压缩

3. 解耦旋转位置嵌入

4. KV缓存比较

结论

1. 低秩矩阵分解

2. 键和值矩阵的联合压缩

3. 潜在向量的使用

4. 优势

总结

优化高负载TCP服务器的一些常见策略和诊断方法

1. 优化内核参数

2. 半连接和全连接队列满的影响

3. 从系统日志中分析

4. 抓包分析

结论

1. net.core.somaxconn

2. net.ipv4.tcp_max_syn_backlog

3. net.ipv4.tcp_fin_timeout

4. net.ipv4.tcp_tw_reuse

5. net.ipv4.tcp_tw_recycle

6. net.ipv4.ip_local_port_range

7. net.ipv4.tcp_syncookies

8. net.core.netdev_max_backlog

应用配置

结论

1. net.core.somaxconn

2. net.ipv4.tcp_max_syn_backlog

3. net.ipv4.tcp_fin_timeout

4. net.ipv4.tcp_tw_reuse

5. net.ipv4.tcp_tw_recycle

6. net.ipv4.ip_local_port_range

7. net.ipv4.tcp_syncookies

8. net.core.netdev_max_backlog

总结

1. 服务器硬件配置

CPU和内存

网络接口

2. 网络环境

网络拓扑

网络负载

3. 应用负载

高并发短连接（如HTTP服务器）

长连接（如数据库服务器）

具体示例

高性能Web服务器（多核CPU、大内存、10Gbps网络接口）

资源有限的内部应用服务器（双核CPU、4GB内存、1Gbps网络接口）

结论

调整系统参数

优化应用程序

增强硬件资源

网络配置和架构优化

持续监控和调整

示例配置

关于65536端口以及TCP连接的相关问题

端口号的范围和使用

服务器的连接限制

套接字和端口的误解

百万并发连接的系统配置

文件描述符数量

TCP读写缓冲区大小

本地端口范围

TIME_WAIT连接的处理

其他重要参数

1. `net.core.somaxconn`

2. `net.ipv4.tcp_max_syn_backlog`

3. `net.ipv4.tcp_fin_timeout`

4. `net.ipv4.tcp_tw_reuse`

5. `net.ipv4.tcp_tw_recycle`

6. `net.ipv4.ip_local_port_range`

7. `net.ipv4.tcp_syncookies`

8. `net.core.netdev_max_backlog`

1. `net.core.somaxconn`

2. `net.ipv4.tcp_max_syn_backlog`

3. `net.ipv4.tcp_fin_timeout`

4. `net.ipv4.tcp_tw_reuse`

5. `net.ipv4.tcp_tw_recycle`

6. `net.ipv4.ip_local_port_range`

7. `net.ipv4.tcp_syncookies`

8. `net.core.netdev_max_backlog`