作者： admin

语言模型的真实故事：Pinocchio的启示
在人工智能的世界中，语言模型（LLMs）正逐渐成为我们日常生活和科技发展的重要组成部分。它们不仅可以生成自然语言文本，还能帮助我们进行问题回答、信息检索等一系列复杂任务。然而，这些语言模型的真实能力和局限性，尤其是在事实知识的储存和推理能力方面，依旧是一个亟待探索的领域。最近，清华大学及其合作伙伴们发布了一项名为“Pinocchio”的基准测试，旨在深入了解大型语言模型的事实知识。这一研究为我们揭开了语言模型的面纱，让我们得以窥见其在真实世界中的表现。

Pinocchio基准的诞生

在过去的几年中，大型语言模型的性能在多个自然语言处理（NLP）任务上取得了显著提升。研究者们发现，这些模型在预训练和指令调优期间积累的事实知识，对于下游任务，如问答和语言生成，具有重要的实用价值。然而，与传统的知识库（KBs）不同，LLMs并不显式地存储事实，而是通过其参数隐式地记忆这些信息。这就导致了一个问题：当模型生成的内容出现不准确或偏离事实的情况时，究竟是因为什么原因呢？

为了回答这个问题，研究团队设计了Pinocchio基准，包含了20,713个来自不同来源、时间线、领域、地区和语言的多样化事实问题。这一基准不仅涵盖了多个事实知识的维度，还涉及到如何有效地推理、更新事实知识、识别细微的事实差异以及抵御对抗性样本的能力。这为模型在真实世界中的应用提供了一种全新的评估标准。

事实知识的多维度探索

Pinocchio基准将事实知识的评估分为七个任务，包括多面性、结构性、对抗性、时间性、现实世界、领域特定和多语言等。这些任务帮助研究者们系统地评估LLMs在事实知识和推理能力上的表现。例如，首先，研究人员通过“多面性”任务考察模型是否能够从不同来源合成多个事实。在这方面，研究表明，虽然小型模型（如BERT）在一定程度上可以保留关系知识，但大型模型在处理复杂事实组合时，依然面临着困难。

其次，通过“结构性”任务，研究者们探讨了LLMs从结构化数据（如表格和数据库）中提取知识的能力。结果显示，尽管这些模型在处理非结构化文本时表现良好，但在面对表格数据时却存在明显的性能下降。这提示我们，未来的模型设计需要更好地整合结构化和非结构化信息。

在“对抗性”任务中，研究者们使用经过精心设计的对抗样本，考察模型对信息的敏感性和鲁棒性。实验结果表明，当前的LLMs在这些情况下容易受到影响，显示出它们在面对微小扰动时的脆弱性。

时间性与事实更新的挑战

事实并非静态，随着时间的推移，许多信息会发生变化。Pinocchio基准的“时间性”任务专门考察模型对时效性知识的处理能力。研究发现，LLMs在应对过时信息时的表现明显低于处理最新事实的能力。这反映出模型的训练数据往往并未涵盖最新的知识，导致其在实际应用中可能无法提供准确的信息。

此外，在“现实世界”任务中，研究人员探讨了LLMs在处理来自互联网的虚假信息时的表现。此任务不仅需要模型具备事实知识，还要求其具备一定的常识和推理能力。结果显示，当前的LLMs在这一领域的表现仍有很大提升空间。

语言模型的未来：从Pinocchio看挑战与机遇

通过对Pinocchio基准的测试，研究者们发现，尽管大型语言模型在事实知识的存储和推理方面已经取得了一些进展，但它们仍然面临诸多挑战。尤其是在处理多步推理、领域特定知识以及多语言能力等任务时，LLMs的表现不尽如人意。

值得注意的是，随着技术的发展，如何提升模型的事实知识和推理能力，已经成为一个重要的研究方向。未来的研究可以借助Pinocchio基准所提供的框架，更加深入地探索LLMs的潜力和局限性。这不仅有助于推动语言模型的技术进步，也将为其在高风险领域（如医疗、金融和法律等）的应用提供更为可靠的保障。

结语

Pinocchio基准的推出，标志着我们在理解大型语言模型的事实知识方面迈出了重要一步。它不仅丰富了我们对LLMs能力的认知，也为未来的研究指明了方向。随着我们对模型的理解不断深入，期待在不久的将来，能够看到更为智能和可靠的语言模型在各个领域的广泛应用。

参考文献
1. Hu, X., Chen, J., Li, X., Guo, Y., Wen, L., Yu, P. S., & Guo, Z. (2024). Towards Understanding Factual Knowledge of Large Language Models. ICLR.
2. Petroni, F., et al. (2019). Language Models as Knowledge Bases?
3. Elazar, Y., et al. (2021). Can We Trust Language Models to Generate Factual Statements?
4. Roberts, A. et al. (2020). How Much Knowledge Can You Pack Into a Parameter?
5. Cheng, W., et al. (2023). The Role of Factual Knowledge in Large Language Models.
2024 年 8 月 20 日
当认证变得更聪明：WebAuthn的崛起与传统方式的告别
在当今互联网的浪潮中，身份认证的重要性不言而喻。随着网络服务的普及，我们越来越依赖线上平台来进行日常工作和娱乐。然而，传统的身份认证方式却像一个老旧的锁，面对日益复杂的安全挑战，显得无能为力。密码、短信验证码、一次性密码（OTP）和双重认证等方法，虽然在某些情况下能提供保护，但它们的不足之处也愈加显露。今天，我们就来聊聊这些传统方式的缺陷，以及新兴技术 WebAuthn 如何改变这一局面。

传统身份认证的无奈

首先，让我们看看传统身份认证方式的几大顽疾。

密码：双刃剑的困扰

密码是最常见的身份验证方式，但它们的脆弱性却让人心惊。无论是暴力破解、泄露还是用户自身的遗忘，密码都可能会成为攻击者的突破口。想象一下，一个人为了安全而使用复杂的密码，结果却在一次无意的泄露中丢失了账户的控制权，这种情况并不罕见。

短信/邮件验证码：安全性存疑

短信和邮件验证码的使用也并非万无一失。当用户在登录时需要输入发送到手机或邮箱的验证码时，攻击者却可能利用社交工程手段将验证码截获。这样的方式在安全性上可谓是千疮百孔，无法真正保障用户的身份安全。

一次性密码（OTP）：易拦截的隐患

虽然 OTP 提供了一定的安全性，但其本质上仍然依赖于被动接收的验证码。如果 OTP 在传输过程中被截获，或者用户未能及时输入，身份认证的安全性便荡然无存。对于需要频繁切换设备的用户而言，这无疑是一个巨大的障碍。

双重认证：安全与便捷的博弈

双重认证虽然提高了安全性，但也牺牲了用户体验。用户需要在输入密码之后再提供第二种认证方式，可能是短信验证码或其他形式的凭据。这种设计虽然增强了安全性，却让用户在每次登录时都要多花时间，影响了流畅的体验。

WebAuthn：身份认证的新希望

那么，有没有一种身份认证方式既能保证安全性，又不影响用户体验呢？答案就是 WebAuthn。

WebAuthn 是由 W3C（万维网联盟）提出的一种新型在线身份认证技术。它允许用户使用基于硬件的身份验证设备（如 Apple TouchID、Windows Hello 或移动设备的生物识别传感器）进行身份验证。WebAuthn 旨在为用户提供更安全、更便捷的在线身份验证方式，得到了大多数现代 Web 浏览器的支持。

WebAuthn 的工作原理

WebAuthn 的工作原理简单而高效。用户在第一次登录时进行身份注册，设备生成一个私钥。随后，用户的设备使用私钥对登录信息进行签名，服务器再验证签名，从而确认用户身份。这一过程中，密码并未被使用，而是利用数字签名技术，结合公钥加密算法，提供了更高的安全性。

WebAuthn 解决了哪些问题？

与传统的密码认证方式相比，WebAuthn 的优势显而易见。

提高安全性

首先，WebAuthn 提供了更高的安全性。由于不使用密码，用户的账户不再面临密码泄露的风险。此外，WebAuthn 支持多种验证方式，包括指纹识别和人脸识别等，这些方式难以被冒充，因此可大幅提升账户的安全性。

便捷的登录体验

其次，WebAuthn 还提供了更便捷的登录体验。用户只需在首次登录时注册身份，之后便可通过 WebAuthn 快速登录，无需记住复杂的密码。同时，这种方式也消除了密码遗忘带来的烦恼，提升了用户的满意度。

设备兼容性

当然，WebAuthn 也有一些局限性。例如，它只能在支持 WebAuthn 的设备上使用，这对一些老旧设备可能并不适用。此外，用户必须在网站或应用中注册公私钥对，对于不熟悉 WebAuthn 的用户来说，可能需要时间来学习和适应。

web-authn-completed-app：助力开发者的实用工具

为了帮助对 WebAuthn 感兴趣的开发者更快地理解和应用这一技术，我创建了一个名为 web-authn-completed-app 的 Demo。这个项目基于 WebAuthn 的身份认证流程，旨在为开发者提供便利的二次开发基础。

项目技术栈

该项目的技术栈如下：
- 客户端：使用 Vue3 + TypeScript + Vite3 开发
- 服务端：使用 Express
- 数据库：使用 MySQL8
为了方便开发者进行部署与二次开发，我详细描述了不同场景下的操作步骤和应用启动方法。

在线体验与源码获取

开发者可以直接访问在线体验，感受这种新型身份验证方式带来的便利。此外，源码可以在 GitHub 上查看。如果您觉得这个项目对您有所帮助，欢迎多多 star，以及与我一起交流学习。

兼容性考虑

在使用 WebAuthn 时，设备和浏览器的兼容性也是一个重要因素。以下是一些兼容的设备和浏览器：

设备兼容性
- 一部安卓设备（最好带有生物识别传感器）
- 一部搭载 iOS 14 或更高版本且具备触控 ID 或面容 ID 功能的 iPhone 或 iPad
- 一部搭载 macOS Big Sur 或更高版本且具备触控 ID 功能的 MacBook Pro 或 Air
- 设置了 Windows Hello 的 Windows 10 19H1 或更高版本
浏览器兼容性
- Google Chrome 67 或更高版本
- Microsoft Edge 85 或更高版本
- Safari 14 或更高版本
结语：未来的身份认证

随着网络环境的不断变化和安全需求的提升，WebAuthn 的出现为我们提供了更高的安全性和便捷的登录体验。在密码频频遭受攻击的今天，WebAuthn 让身份认证变得更聪明、更安全。

未来，身份认证将不仅仅是一个简单的验证过程，而是一个与用户体验紧密结合的科技创新。让我们一起拥抱这一变化，期待更美好的网络安全未来。

参考文献
1. W3C WebAuthn 规范
2. WebAuthn 的工作原理与应用
3. web-authn-completed-app 项目介绍
4. 现代身份认证技术的发展趋势
5. WebAuthn 与传统身份认证的比较
希望这篇文章能够帮助您更深入地了解 WebAuthn 及其对传统身份认证方式的颠覆性影响！
2024 年 8 月 20 日

作者： admin

语言模型的真实故事：Pinocchio的启示

Pinocchio基准的诞生

事实知识的多维度探索

时间性与事实更新的挑战

语言模型的未来：从Pinocchio看挑战与机遇

结语

参考文献

当认证变得更聪明：WebAuthn的崛起与传统方式的告别

传统身份认证的无奈

密码：双刃剑的困扰

短信/邮件验证码：安全性存疑

一次性密码（OTP）：易拦截的隐患

双重认证：安全与便捷的博弈

WebAuthn：身份认证的新希望

WebAuthn 的工作原理

WebAuthn 解决了哪些问题？

提高安全性

便捷的登录体验

设备兼容性

web-authn-completed-app：助力开发者的实用工具

项目技术栈

在线体验与源码获取

兼容性考虑

设备兼容性

浏览器兼容性

结语：未来的身份认证

参考文献