博客

PowerInfer：单个消费级GPU的高效推理引擎
PowerInfer 提供了适用于个人计算机配备单个消费级GPU的高速大型语言模型（LLM）推理引擎。PowerInfer的关键创新在于利用LLM推理中固有的高局部性，其特点是神经元激活呈幂律分布。

利用这一见解，PowerInfer采用了GPU-CPU混合推理引擎，其中热激活的神经元预先加载到GPU上以实现快速访问，而冷激活的神经元则在CPU上计算，显著减少了GPU内存需求和CPU-GPU数据传输。此外，它集成了自适应预测器和神经元感知的稀疏运算符，优化了神经元激活和计算稀疏性的效率。

评估表明，PowerInfer在单个NVIDIA RTX 4090 GPU上实现了13.20个标记/秒的平均标记生成速率，峰值达到29.08个标记/秒，仅比顶级服务器级A100 GPU低18％。这种性能明显优于llama.cpp，性能提高了高达11.69倍，同时保持了模型的准确性。

特点
- 局部性设计： 利用稀疏激活和“热”/“冷”神经元概念进行高效的LLM推理，确保更高的速度和更低的资源需求。
- 混合CPU/GPU利用： 无缝整合CPU和GPU的内存/计算能力，实现均衡的工作负载和更快的处理速度。
- 易集成： 兼容流行的ReLU稀疏模型。
- 本地部署便利： 专为在消费级硬件上本地部署进行了深度优化，实现了低延迟的LLM推理和在单个GPU上的服务。
入门指南
- 安装： 指南以安装和设置PowerInfer。
- 模型权重： 有关使用模型权重和PowerInfer GGUF等特殊格式的信息。
- 构建： 在Linux或macOS上使用CMake构建PowerInfer的说明。
推理
- 提供了详细的说明，用于在CPU和CPU-GPU混合推理中运行PowerInfer，包括限制GPU的VRAM使用情况。
量化
- 针对INT4（Q4_0）模型的优化量化支持，包括量化PowerInfer GGUF模型的说明。
论文和引用

PowerInfer的更多技术细节可以在他们的论文中找到。如果您发现PowerInfer对您的项目和研究有用或相关，欢迎引用他们的论文。

致谢

PowerInfer感谢llama.cpp等多个实体的支持和启发，THUNLP对ReLU稀疏模型的支持，以及Deja Vu对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级GPU的个人计算机上进行高效的LLM推理和部署提供了一种有前景的方法。
2023 年 12 月 21 日
图生文BLIP-2：图生文大语言图像预训练引导

大家好！今天我要和大家分享一个名为BLIP-2的最新模型，它在网络上引起了轰动。这个模型不仅具备基本的”看图说话”功能，还可以写情诗、讲解剧情、设计图片中对象的对话等等。简直就是一位多才多艺的AI！举个例子，当你在网上看到一张诱人的美食图片时，只需将图片发送给BLIP-2，它就能立即识别出需要的食材和烹饪步骤。甚至连图片中隐藏的一些细节都能一清二楚地”看”出来。比如，当被问到如何从一幅倒着的房子的图片中离开，BLIP-2的回答是：侧面不是有滑梯嘛！

BLIP-2是一个全新的AI模型，它的全称是”Bootstrapping Language-Image Pre-training 2″，目前已经开源。与以往的研究不同，BLIP-2采用了一种通用的预训练框架，因此可以灵活地与各种语言模型进行对接。这项研究由Salesforce Research团队进行，其中之一的Steven Hoi表示，BLIP-2未来将成为”多模态版ChatGPT”。

BLIP-2的第一作者是Junnan Li，他也是一年前发布的BLIP项目的主要作者。目前，他是Salesforce亚洲研究院的高级研究科学家。他本科毕业于香港大学，博士毕业于新加坡国立大学。他的研究领域非常广泛，包括自我监督学习、半监督学习、弱监督学习以及视觉-语言相关的研究。

如果你对BLIP-2感兴趣，以下是它的论文链接和GitHub链接，大家可以自行查阅：
论文链接：BLIP-2论文
GitHub链接：BLIP-2 GitHub

参考链接：[1] 推特链接1
[2] 推特链接2

希望大家对BLIP-2感到兴奋！这个模型的优秀表现真的让人惊叹，它为我们展示了语言和图像之间的无限可能性。让我们共同期待BLIP-2的未来发展！💪🤖

2023 年 12 月 21 日

博客

PowerInfer：单个消费级GPU的高效推理引擎

特点

入门指南

推理

量化

论文和引用

致谢

图生文BLIP-2：图生文大语言图像预训练引导