博客

  • 🔍 探索 Anima:QLoRA 33B中文LLM

    欢迎来到我的博客!今天我将为大家介绍一个令人兴奋的开源项目 – Anima。该项目是一个QLoRA的33B中文大语言模型,同时支持DPO对齐训练,并提供了100K上下文窗口的开源模型。最近,他们还推出了AirLLM,这是一个令人印象深刻的库,可以在只有4GB内存的单个GPU上推理出70B的LLM。让我们一起来深入了解这个项目吧!

    🔄 更新内容

    • [2023/11/17] 开源:AirLLM,使用单个4GB GPU进行70B LLM推理。
    • [2023/09/06] 开源100K上下文窗口的基于Llama2的LLM。
    • [2023/06/29] 开源基于DPO+QLORA的对齐训练。
    • [2023/06/12] 开源第一个33B中文大语言模型。

    🔍 Anima简介

    Anima是第一个基于QLoRA的开源中文33B大语言模型。它支持DPO对齐训练,同时还提供了100K上下文窗口的开源模型Anima100K,基于Llama2,可用于商业用途。最近,他们还推出了AirLLM,这是一个令人兴奋的新功能,可以在只有4GB内存的单个GPU上进行70B LLM的推理。

    💨 AirLLM:单卡推理70B大模型

    AirLLM是Anima团队最新推出的功能之一。它通过优化推理内存的使用,使得只需单个4GB内存的GPU就能运行70B大语言模型的推理。与其他可能会降低模型性能的量化、蒸馏、剪枝等模型压缩技术不同,AirLLM无需这些步骤,仍能保持卓越的性能。

    📚 100K上下文长度LLM

    Anima团队还开源了一个新的Anima模型,该模型支持100K上下文窗口长度!该模型基于LLama2,可用于商业用途。经过精心策划的长文本问答训练数据,以及大量的内存优化,使得LLama2模型能够适应100K的输入长度。

    通过将整个知识库或一本书直接放入Prompt中,您不再需要进行繁琐的向量化和文本分割。Anima团队在这个模型中应用了最新的技术,如XEntropy、Paged 8bit Adamw、LORA、Flashattention2,并对长输入进行了定制的训练和推理代码修改,使得单个GPU就能支持100K的输入长度。

    🔗 相关链接

    🤝 参与贡献

    如果您对Anima项目感兴趣并希望参与贡献,您可以在GitHub上提交问题和请求,与团队进行讨论,并向项目做出贡献。Anima团队非常欢迎您的参与!

    这就是对Anima项目的介绍!我希望这个开源项目能够给我们带来更多的惊喜和创新。如果您对这个项目感兴趣,不妨亲自探索一下GitHub链接:GitHub – lyogavin/Anima。祝您在学习和使用Anima时取得成功!如果您有任何问题或想法,请随时与Anima团队联系。

    🌟 关于Anima团队

    Anima团队是一群对人工智能技术充满热情的专业人士。他们致力于开发创新的语言模型,并将其开源,以促进自然语言处理领域的发展。通过Anima项目,他们希望为中文语言处理提供先进的工具和资源。

    如果您对自然语言处理、大语言模型或人工智能领域有兴趣,不妨关注Anima团队的官方博客、微信公众号和Discord社区,以获取更多相关内容和交流机会。

    感谢您阅读我的博客,希望您对Anima项目有了更深入的了解。如果您对这篇文章有任何反馈或建议,请随时与我分享。谢谢!🙏


  • ChatGLM3: 开源双语对话语言模型

    GitHub链接:ChatGLM3

    欢迎来到本篇博客文章!今天我们将介绍一个非常引人注目的开源项目——ChatGLM3。这是由智谱AI和清华大学KEG实验室联合发布的一款新一代对话预训练模型。让我们一步步来了解这个项目吧!

    项目介绍

    ChatGLM3是一款强大的对话预训练模型,它具有以下特点:

    1. 更强大的基础模型:ChatGLM3采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。经过在不同领域数据集上的测试,ChatGLM3表现出在同等规模的模型中具有最强性能的特点。
    2. 完整的功能支持:ChatGLM3提供了丰富的功能支持,可以应对各种对话场景和任务,包括语义理解、数学计算、推理推断、代码生成、知识查询等。
    3. 双语对话:ChatGLM3支持双语对话,可以实现中英文之间的自由切换和交流。

    项目内容

    ChatGLM3的GitHub仓库包含以下主要内容:

    1. 文档:ChatGLM3附带详细的技术文档,其中包括使用指南、模型介绍和部署说明等。
    2. 示例代码:ChatGLM3提供了多个示例代码,包括综合演示、模型微调、网页版对话演示、命令行对话演示、LangChain演示等,方便用户快速上手和定制化开发。
    3. 工具调用:ChatGLM3还提供了一些实用工具,用于模型的API部署、低成本部署、模型量化、CPU部署、Mac部署、多卡部署等。

    使用方法

    想要使用ChatGLM3,您可以按照以下步骤进行:

    1. 确保您的环境满足ChatGLM3的要求,并进行相关的依赖安装。
    2. 探索文档,了解ChatGLM3的各项功能和使用方法。
    3. 根据您的需求,选择合适的示例代码进行调用和定制化开发。
    4. 如有需要,可以使用ChatGLM3提供的工具进行模型的部署和优化。

    结语

    ChatGLM3是一个非常令人兴奋的开源项目,它为对话预训练模型领域带来了新的突破和可能性。通过使用ChatGLM3,您可以构建强大的对话系统,应对各种复杂的对话任务。赶快去GitHub上探索ChatGLM3的仓库,开始您的对话之旅吧!

    🌟 如果您觉得这篇博客对您有帮助,请给予我们一个小小的鼓励!我们将非常感激! 🌟

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-05-18 01:10:56
沪ICP备2024052574号-1