知差（chai）

标签： AGI

ConvNeXt V2：使用遮罩自编码器共同设计和扩展ConvNets

由于改进的架构和更好的表示学习框架的推动，视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如，现代卷积神经网络（ConvNets），以 ConvNeXt 为代表，在各种场景中表现出强大的性能。尽管这些模型最初是为具有 ImageNet 标签的监督学习设计的，但它们也可能从自监督学习技术（如遮蔽自动编码器（MAE））中受益。然而，我们发现简单地结合这两种方法会导致性能不佳。在本文中，我们提出了一个全卷积遮蔽自动编码器框架和一个新的全局响应归一化（GRN）层，这个层可以添加到 ConvNeXt 架构中以增强通道间特征竞争。这种自监督学习技术和架构改进的共同设计产生了一个名为 ConvNeXt V2 的新模型族，它显著提高了纯粹的 ConvNets 在各种识别基准上的性能，包括 ImageNet 分类、COCO 检测和 ADE20K 分割。我们还提供了各种尺寸的预训练 ConvNeXt V2 模型，从参数数量为 370 万的高效 Atto 模型（在 ImageNet 上的 top-1 准确率为 76.7%），到使用公共训练数据达到最先进的 88.9% 准确率的 6.5 亿参数的 Huge 模型。

[2301.00808] ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (arxiv.org)

2023 年 5 月 27 日
大模型能力的“涌现”机制被谷歌发现

大型语言模型的涌现能力是一个黑箱，难以解释。尽管目前的研究已经开始揭示其中的一些机制，但我们仍然需要更深入的研究来更好地理解这些现象。

谷歌的这篇论文提供了有关语言模型的ICL行为如何随着模型参数而改变的重要见解，以及更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这些发现表明，不同规模的语言模型在上下文学习能力方面存在着明显的差异。特别是，大型语言模型可以通过覆盖预先训练的语义知识和学习输入-标签映射来执行任务，而小型模型则更依赖于先验知识。

此外，研究者还发现，指令调优加强了语义先验知识的使用，而不是增加了学习输入-标签映射的能力。这些发现有助于我们更好地理解语言模型的涌现行为，同时也为未来的研究提供了方向，包括为什么这些现象会与模型参数规模相关等问题。

未来的研究可以探索不同类型的语言模型之间的差异，以及它们的涌现能力如何随着训练数据集的规模变化而改变。

此外，可以研究如何利用语义先验知识和输入-标签映射来设计更好的训练策略，以提高语言模型的性能。

最终，我们希望通过深入研究语言模型的涌现能力，能够更好地理解它们如何执行复杂的自然语言处理任务，并为未来的人工智能发展提供更好的基础。

论文地址：https://arxiv.org/pdf/2303.03846.pdf

2023 年 5 月 22 日

标签： AGI

ConvNeXt V2：使用遮罩自编码器共同设计和扩展ConvNets

大模型能力的“涌现”机制被谷歌发现