博客

vLLM：让大型模型推理更快的工具
今天，我要给大家介绍一款名为vLLM的神奇工具。它的主要功能是加速大型语言模型（如OpenAI的GPT-3）的推理速度。如果你是NLP（自然语言处理）领域的研究员或开发者，我相信这个工具可能会对你的工作有所帮助。

为什么我们需要vLLM？

在大规模语言模型运行时，我们常常遇到一个问题：显存不足。这是因为在生成新的单词或者词语（token）时，我们需要存储一些称为 keys 和 values的数据（我们可以把它们看作是模型用来生成新token的”记忆”）在GPU的显存中。然而，这些数据通常非常大，而且大小也会不断变化，这使得显存管理变得困难。传统的管理方式往往会造成显存的60%-80%的浪费。

这就是vLLM要解决的问题。它引入了一种名为PagedAttention的新技术，可以有效地管理这些keys和values，使得显存的使用效率接近最优（浪费比例低于4%）。这样一来，我们就可以使用更大的数据批次进行运算，从而提高GPU的并行计算能力。

vLLM的核心技术：PagedAttention

PagedAttention的工作原理受到了操作系统中虚拟内存和分页的启发。它将每个序列的数据划分为块，每个块包含固定数量的keys和values。这些块不需要连续的内存，因此可以更灵活地对它们进行管理。

此外，PagedAttention还支持内存共享，也就是说，当用一个提示生成多个不同的序列时，可以共享计算量和显存。这种内存共享机制可以大幅降低显存需求（最高可降低55%），从而进一步提升推理速度。

如何使用vLLM？

vLLM的使用非常简单。首先，使用pip命令安装vLLM：
```
pip install vllm
```
然后，你就可以使用vLLM来生成文本了：
```
from vllm import LLM

prompts = ["Hello, my name is", "The capital of France is"]  # 提示
llm = LLM(model="lmsys/vicuna-7b-v1.3")  # 创建一个LLM
outputs = llm.generate(prompts)  # 从提示生成文本
```
vLLM也支持在线服务。你可以使用以下命令启动一个在线服务：
```
python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3
```
然后，你就可以通过HTTP请求来调用这个服务了：
```
curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "lmsys/vicuna-7b-v1.3",
        "prompt": "San Francisco is a",
        "max_tokens": 7,
        "temperature": 0
    }'
```
如果你对vLLM感兴趣，可以在这里查阅更多信息。希望这个工具能对你的工作或学习有所帮助！
2023 年 10 月 24 日
使用Devilbox简化本地开发：Docker化的PHP堆栈

Devilbox是一个现代化且高度可定制的PHP开发堆栈，基于Docker运行。它为所有主要操作系统提供可重现和相同的开发环境，无需任何配置。无论您是在开发LAMP还是MEAN堆栈，Devilbox都可以轻松切换和组合所需的版本以供本地开发使用。通过自动创建虚拟主机（vhost）、SSL证书和DNS记录，Devilbox支持无限数量的项目。在本文中，我们将探讨Devilbox的功能以及它如何简化本地开发。

简单安装和设置：
安装Devilbox非常简单。只需克隆Devilbox存储库并配置环境文件即可。Devilbox适用于包括Linux、macOS和Windows在内的所有主要操作系统。完成设置后，您可以使用一个命令启动所有容器。

精确运行所需的内容：
Devilbox提供了灵活性，可以选择所需的守护程序及其版本。您可以轻松配置Apache、Nginx、PHP、MySQL、MariaDB、Percona、PgSQL、Redis、Memcached、MongoDB等。这样，您可以在开发过程中准确模拟生产环境。

附加服务和工具：
除了默认堆栈之外，Devilbox还提供了其他一些可以轻松启用和启动的服务。这些服务包括Python（Flask）、Blackfire、ELK、MailHog、Ngrok、RabbitMQ、Solr、HAProxy、Varnish等等。您可以仅启动所需的容器，并在堆栈运行时添加或删除守护程序。

邮件拦截和自动DNS：
Devilbox包含一个内置的postfix邮件服务器，可以拦截所有发出的电子邮件，确保您在开发过程中不会意外发送真实的电子邮件。自动DNS功能会自动为每个项目提供正确的DNS记录，无需手动编辑主机文件。

用户友好的内部网络和安全性：
Devilbox配有一个用户友好的内部网络，提供有用的工具，如容器健康监控、DNS状态、可用的虚拟主机、电子邮件、数据库和有效的配置。安全性也是一个重要考虑因素，Devilbox使用官方Docker映像和自定义映像的混合方式。所有集成的容器都可以在GitHub上进行查看。

始终更新和活跃的社区：
Devilbox容器经常更新并推送到Docker Hub。您可以轻松拉取最新的映像或重新构建特定的容器以获取最新版本。Devilbox拥有活跃的社区，欢迎贡献、错误报告、功能请求和通过GitHub、论坛和聊天渠道的合作。

结论：
Devilbox通过提供可定制和可复现的基于Docker的PHP堆栈简化了本地开发。通过其简单的安装、选择守护程序和版本的灵活性、附加服务和工具、邮件拦截、自动DNS、用户友好的内部网络和活跃的社区支持，Devilbox简化了开发流程，提高了生产效率。无论您是初学者还是经验丰富的开发人员，Devilbox都是创建和管理开发环境的有价值工具。尝试一下，体验轻松的本地开发带来的好处。

devilbox.org

2023 年 10 月 24 日

博客

vLLM：让大型模型推理更快的工具

为什么我们需要vLLM？

vLLM的核心技术：PagedAttention

如何使用vLLM？

使用Devilbox简化本地开发：Docker化的PHP堆栈