博客

  • BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!

    背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。

    • BLOOMChat: BLOOMChat是在SambaNova的AI计算平台上训练的,目的是打造一个开源的、支持多语言、可商用的聊天LLM。实验表明BLOOMChat对多语言的支持明显优于其它开源模型。
    • 数据和方法: BLOOMChat使用OpenChatKit、Dolly 2.0和OASST1等英语数据集进行BLOOM(176B)模型的微调。尽管只用英语数据微调,但BLOOMChat在其他语言的对话质量也得到明显提高。
    • 实验效果: 让不同语言的native speaker评价BLOOMChat在其语言下的回答质量,BLOOMChat明显优于其他开源模型,但略逊于GPT-4。对BLOOMChat的回答进行评分,70%以上得到正确或可接受的评价。在WMT翻译任务上,BLOOMChat优于其他开源模型,但弱于GPT-4。
    • BLOOMChat的局限性: 可能生成错误或无关信息,切换语言,重复内容,对代码或数学问题生成效果一般,可能产生不适当内容等。

    BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。

    sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)

  • RMT 突破LLM百万Tokens上下文长度

    Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用,以扩展 BERT 的上下文长度,这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息,并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性,这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理,并为记忆密集型应用程序启用大规模上下文处理。

    2304.11062.pdf (arxiv.org)

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-05-13 10:27:52
沪ICP备2024052574号-1