作者: admin

  • 长文本检索的突破:LoCoV1 基准测试和 M2-BERT 模型的最新进展

    近年来,随着人工智能技术的飞速发展,长文本检索成为了一个备受关注的研究领域。传统的检索方法往往难以处理长文本,而新的模型和方法正在不断涌现,为我们提供了更强大的工具。今天,我们将介绍由斯坦福大学 Hazy Research 团队发布的最新成果:LoCoV1 长文本检索基准测试和 M2-BERT 模型的最新进展。

    LoCoV1:一个更全面的长文本检索基准测试

    在之前的一篇博文中,Hazy Research 团队曾向社区征求对长文本检索的需求。经过与研究人员和从业者的交流,他们发现法律、编程等领域对长文本检索有着迫切的需求。为了满足这些需求,他们构建了 LoCoV1 基准测试,它包含了来自法律、医学、科学、金融、公司治理、政府报告等多个领域的 12 个任务。

    LoCoV1 基准测试使用了多个真实世界的数据集,包括 Tau Scrolls、QASPER、LongBench、Legal Case Reports 等。这些数据集的共同特点是:

    • 更长、更复杂的查询和文档格式: LoCoV1 中的查询和文档往往包含大量信息,需要模型具备更强的理解能力才能进行有效的检索。
    • 能够评估模型对长文本的处理能力: LoCoV1 的设计确保了查询和文档中包含了大量相关信息,能够有效地测试模型在长文本检索方面的性能。

    Hazy Research 团队在 HuggingFace 上发布了 LoCoV1 的查询和文档,方便研究人员进行测试。

    M2-BERT 模型的最新进展:更强大的长文本检索能力

    为了更好地应对 LoCoV1 基准测试中的挑战,Hazy Research 团队对 M2-BERT 模型进行了微调,并发布了新的 M2-BERT-V2 模型。这些模型针对 128、2k、8k 和 32k 的输入 token 进行了优化,并可以在 HuggingFace 和 Together 平台上进行推理。

    在 LoCoV1 基准测试上,M2-BERT-V2 模型的表现非常出色,甚至超过了更大规模的模型。例如,M2-BERT-80M-32k-Retrieval 模型在 LoCoV1 上取得了 95.2 的得分,超过了 4 倍大小的 E5-Mistral 模型和 85 倍大小的 OpenAI Ada 模型。

    总结与展望

    LoCoV1 基准测试和 M2-BERT 模型的最新进展,标志着长文本检索领域取得了新的突破。未来,Hazy Research 团队将继续探索如何将神经网络、词汇方法和混合方法相结合,进一步提升长文本检索的性能。

    参考文献

    Announcing LoCoV1 and the Latest M2-BERT Models · Hazy Research

  • 从DNA学习:生物学领域的重大挑战

    引言

    近年来,人工智能(AI)在各个领域取得了突破性进展,自然语言处理领域更是如此。大型语言模型(LLM)的出现,让我们看到了AI在理解和生成人类语言方面的巨大潜力。然而,生物学领域却相对落后。DNA作为生命的基本代码,蕴藏着丰富的生物信息,但我们对它的理解还远远不够。

    DNA:生物学的语言

    DNA就像一门复杂的语言,包含着关于生命运作的全部信息。它由四种碱基(A、T、C、G)组成,排列组合形成基因,进而决定了生物体的性状和功能。然而,与人类语言不同,DNA语言更加复杂,包含着多种模态,例如DNA、RNA和蛋白质。这些模态相互关联,共同构成生命活动的复杂网络。

    Evo:一个突破性的DNA模型

    为了更好地理解和利用DNA信息,斯坦福大学Hazy Research团队开发了一个名为Evo的生物基础模型。Evo是一个长上下文模型,能够处理超过65万个token的DNA序列,并进行预测和生成任务。

    Evo的训练数据来自270万个原核生物和噬菌体基因组,包含3000亿个token。它基于StripedHyena架构,结合了旋转注意力机制,并通过高效的上下文扩展技术,将上下文长度扩展到131000个token。

    Evo的亮点

    • 跨模态学习: Evo能够学习DNA、RNA和蛋白质之间的关系,在蛋白质功能预测方面取得了与专门的蛋白质模型(如ESM2和ProGen)相当的性能,即使没有被明确地展示蛋白质编码区域。
    • 全基因组理解: Evo能够预测基因的必要性,即哪些基因对于生物体的生存至关重要。它可以通过分析DNA突变来预测基因的必要性,而无需进行实验室实验。
    • 生成能力: Evo能够生成新的分子、系统,甚至整个基因组。它可以设计新的CRISPR系统,这为创建新的基因编辑工具开辟了新的途径。

    DNA建模的挑战

    DNA建模面临着许多挑战,其中最主要的是:

    • 长距离建模: 人类基因组包含30亿个核苷酸,需要模型能够处理长距离的序列信息。
    • 单核苷酸分辨率: 进化过程中的单个核苷酸突变会对生物体产生重要影响,因此模型需要能够识别和理解单个核苷酸的变化。
    • 多种模态: DNA包含多种模态,需要模型能够理解这些模态之间的关系。

    DNA的扩展规律

    为了更好地理解DNA模型的扩展规律,Hazy Research团队进行了DNA扩展规律实验。他们训练了300个模型,涵盖了Transformer++、Mamba、Hyen和StripedHyena等多种架构,并通过改变模型大小和数据集大小来观察模型性能的变化。

    实验结果表明,Transformer++在DNA建模方面表现较差,而Hyen和StripedHyena则表现出更好的扩展率。这表明,自然语言模型的架构不一定适用于DNA建模。

    机械架构设计

    为了更好地理解模型架构的选择,Hazy Research团队开发了一种新的框架,称为机械架构设计(MAD)。MAD利用合成任务来测试不同的架构设计选择,并建立了合成任务性能与扩展规律之间的联系。

    未来方向

    Evo的出现为生物学研究开辟了新的可能性。未来,研究人员将继续努力改进Evo模型,并将其应用于更多领域,例如:

    • 提示工程和对齐技术: 通过提示工程和对齐技术,可以提高Evo模型的设计序列的控制性和质量。
    • 多模态学习: 将领域特定知识注入Evo模型,可以提高模型的性能。
    • 评估方法: 开发更有效的评估方法,可以更好地评估模型的性能。

    结论

    从DNA学习是生物学领域的重大挑战,也是人工智能领域的重要机遇。Evo模型的出现标志着生物学研究进入了一个新的时代。随着人工智能技术的不断发展,我们有理由相信,未来我们将能够更好地理解和利用DNA信息,为人类健康和社会发展做出更大的贡献。

    参考文献

    • [1] Hazy Research. (2024). Learning from DNA: a grand challenge in biology. Hazy Research Blog. https://hazyresearch.stanford.edu/blog/2024-03-14-evo
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1