博客

  • 逃离中心化:星际文件系统 IPFS 的崛起

    互联网正变得越来越中心化。从域名解析到内容托管,再到路由和证书颁发,越来越多的服务都集中在少数几家大型公司手中。这种中心化趋势带来了单点故障风险,一旦这些公司出现问题,整个互联网都可能陷入瘫痪。2013 年亚马逊电商平台的宕机事件就是一个典型的例子,每分钟的损失超过 66000 美元。

    为了解决这个问题,近年来兴起了一场“网络去中心化”技术运动,旨在赋予用户更多控制权。IPFS (星际文件系统) 就是这场运动中的重要一员。IPFS 是一个完全去中心化的、内容寻址的媒体对象存储和检索平台。 它将内容的名称与其存储位置分离,并依赖去中心化的对等网络来索引和存储数据,从而避免了单一实体对网络的控制。

    IPFS 的核心概念

    IPFS 的设计基于四个主要概念:

    • 内容寻址: IPFS 使用基于哈希的内容标识符 (CID) 来标识数据,而不是使用传统的基于位置的地址。这意味着数据可以由任何对等点提供,而无需依赖特定的服务器。
    • 去中心化对象索引: IPFS 使用去中心化的 P2P 覆盖网络来索引对象的可用位置,即使一些节点失效,也不会影响数据的访问。
    • 不可变性及自认证: IPFS 使用加密哈希来自认证对象,确保数据的完整性和真实性,无需依赖证书颁发机构。
    • 开放参与: 任何人都可以部署 IPFS 节点并参与网络,无需特殊权限。

    IPFS 如何工作?

    IPFS 通过以下步骤发布和检索内容:

    1. 内容发布: 当用户将数据导入 IPFS 时,数据会被分割成块,每个块都会被分配一个唯一的 CID。然后,IPFS 会构建一个 Merkle DAG (默克尔有向无环图) 来存储这些块,并生成一个根 CID,代表整个数据的标识符。
    2. 提供者记录: 为了让其他用户找到数据,发布者需要生成一个提供者记录,将 CID 映射到自己的 PeerID (对等点标识符) 和 Multiaddress (网络地址)。
    3. DHT 索引: 提供者记录会被发布到一个去中心化的哈希表 (DHT) 上,DHT 会将 CID 和 PeerID 存储起来,并帮助用户找到数据。
    4. 内容检索: 当用户想要检索数据时,他们会向 DHT 发送请求。DHT 会根据 CID 找到最近的提供者记录,并返回提供者的 PeerID 和 Multiaddress。
    5. 对等点连接: 用户会连接到提供者,并使用 Bitswap 协议从提供者获取数据。

    IPFS 的优势

    IPFS 带来了许多优势,包括:

    • 名称持久性: 数据的标识符是不可变的,即使数据被复制或移动,其标识符也不会改变。
    • 文件完整性: IPFS 使用加密哈希来验证数据的完整性,确保数据没有被篡改。
    • 数据去重: IPFS 会自动识别和删除重复数据,节省存储空间和带宽。
    • 抗审查性: 由于数据分布在多个节点上,任何人都无法轻易删除或修改数据。
    • 网络分区容错性: 即使网络出现故障,IPFS 仍然可以正常工作。

    IPFS 的挑战

    IPFS 也面临着一些挑战,包括:

    • 激励机制: 目前 IPFS 缺乏有效的激励机制,导致用户参与度不高。
    • 访问控制: IPFS 默认不提供访问控制机制,需要用户自行实现。
    • 内容可用性: 由于 IPFS 是一个尽力而为的网络,无法保证所有数据都始终可用。

    IPFS 的未来

    尽管面临着挑战,IPFS 仍然拥有巨大的潜力。它有可能改变我们存储和访问数据的方式,并为互联网带来更去中心化、更安全、更可靠的未来。

    参考文献


    https://ipfs.io/ipfs/QmePKXH5VsUmRrWr5iQgz1gvf5AujoRpd9yxFtcx7CgeZ2?filename=IPFS%E5%8E%9F%E7%90%86%E8%AF%A6%E8%A7%A3.pdf


    https://ipfs.io/ipfs/QmSX6abumAo8BGGawLx2nRrKy4885oFiKEnpKec1oLKjxK?filename=IPFS%E4%B8%AD%E7%9A%84%E5%88%86%E5%B8%83%E5%BC%8F%E5%93%88%E5%B8%8C%E8%A1%A8DHT.pdf


  • 长文本检索的突破:LoCoV1 基准测试和 M2-BERT 模型的最新进展

    近年来,随着人工智能技术的飞速发展,长文本检索成为了一个备受关注的研究领域。传统的检索方法往往难以处理长文本,而新的模型和方法正在不断涌现,为我们提供了更强大的工具。今天,我们将介绍由斯坦福大学 Hazy Research 团队发布的最新成果:LoCoV1 长文本检索基准测试和 M2-BERT 模型的最新进展。

    LoCoV1:一个更全面的长文本检索基准测试

    在之前的一篇博文中,Hazy Research 团队曾向社区征求对长文本检索的需求。经过与研究人员和从业者的交流,他们发现法律、编程等领域对长文本检索有着迫切的需求。为了满足这些需求,他们构建了 LoCoV1 基准测试,它包含了来自法律、医学、科学、金融、公司治理、政府报告等多个领域的 12 个任务。

    LoCoV1 基准测试使用了多个真实世界的数据集,包括 Tau Scrolls、QASPER、LongBench、Legal Case Reports 等。这些数据集的共同特点是:

    • 更长、更复杂的查询和文档格式: LoCoV1 中的查询和文档往往包含大量信息,需要模型具备更强的理解能力才能进行有效的检索。
    • 能够评估模型对长文本的处理能力: LoCoV1 的设计确保了查询和文档中包含了大量相关信息,能够有效地测试模型在长文本检索方面的性能。

    Hazy Research 团队在 HuggingFace 上发布了 LoCoV1 的查询和文档,方便研究人员进行测试。

    M2-BERT 模型的最新进展:更强大的长文本检索能力

    为了更好地应对 LoCoV1 基准测试中的挑战,Hazy Research 团队对 M2-BERT 模型进行了微调,并发布了新的 M2-BERT-V2 模型。这些模型针对 128、2k、8k 和 32k 的输入 token 进行了优化,并可以在 HuggingFace 和 Together 平台上进行推理。

    在 LoCoV1 基准测试上,M2-BERT-V2 模型的表现非常出色,甚至超过了更大规模的模型。例如,M2-BERT-80M-32k-Retrieval 模型在 LoCoV1 上取得了 95.2 的得分,超过了 4 倍大小的 E5-Mistral 模型和 85 倍大小的 OpenAI Ada 模型。

    总结与展望

    LoCoV1 基准测试和 M2-BERT 模型的最新进展,标志着长文本检索领域取得了新的突破。未来,Hazy Research 团队将继续探索如何将神经网络、词汇方法和混合方法相结合,进一步提升长文本检索的性能。

    参考文献

    Announcing LoCoV1 and the Latest M2-BERT Models · Hazy Research

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-06-30 01:44:51
沪ICP备2024052574号-1