标签: AGI

  • 🌐 多话 ≠ 真相:大语言模型的冗长补偿行为揭秘

    摘要

    在我们日常生活中,当人们对某个问题没有把握时,常常会倾向于说得过多,以期在长篇大论中某个部分可能正确。类似的行为在大语言模型(LLMs)中也屡见不鲜,这种现象我们称之为“冗长补偿”(Verbosity Compensation, VC)。这种行为不仅会让用户感到困惑,降低使用效率,还会增加模型服务的延迟和成本。本文首次定义、分析了冗长补偿现象,探索其成因,并提出了一种简单的缓解方法。通过对五个知识和推理型问答数据集上的14个新开发的LLMs进行实验,我们得出了三个主要结论:

    1. 我们发现冗长补偿现象在所有模型和数据集上普遍存在,其中GPT-4的VC频率高达50.40%。
    2. 冗长和简洁响应之间的性能差距显著,例如在Qasper数据集上差异达到27.61%。这种差异不会随着LLM能力的提升而自然减小。
    3. 冗长响应在所有五个数据集上表现出更高的不确定性,暗示冗长与模型不确定性之间存在强关联。

    我们提出了一种简单而有效的级联算法,通过用其他模型生成的响应替换冗长响应来缓解这种现象。结果表明,该方法有效地将Mistral模型在Qasper数据集上的VC从63.81%减少到16.16%。

    1. 引言

    “把所有东西都扔到墙上,看有什么能粘住。”
    ——美国谚语

    所谓“冗长补偿”,指的是使用过于冗长的语言试图掩盖缺乏实质内容或清晰沟通的行为,借此试图显得更有知识或有说服力,即使这些文字并未为信息增添显著意义。这种现象不仅在人类语言交流中存在,在大语言模型中也有类似表现。

    2. 冗长补偿的定义

    我们将冗长补偿定义为在要求简洁书写时,生成的响应可以在不丢失信息的情况下被压缩的行为。为了系统地分析VC行为,我们整合了四个现有的长上下文问答数据集以及一个基于推理的语言理解数据集。通过对14个新提出的LLMs在五个数据集上的基准测试,我们对结果进行了详尽分析。

    2.1 冗长补偿行为的分类

    通过人工检查模型生成的结果,我们总结并分类了冗长补偿的模式。尽管不同的模型和数据集在冗长补偿行为上分布不同,我们可以将其归类为五种类型:重复问题、枚举、模糊、冗长的细节和冗长的格式。

    2.2 冗长补偿与模型不确定性的联系

    通过对模型响应的不确定性进行评估,我们发现冗长响应在所有五个数据集上表现出更高的不确定性,显示出冗长与模型不确定性之间的强关联。我们使用困惑度和拉普拉斯分数来度量模型响应的不确定性。

    3. 缓解冗长补偿的方法

    为了解决冗长补偿的问题,我们提出了一种简单但有效的级联算法,该算法通过用其他模型生成的响应替换冗长响应来减轻冗长补偿的影响。实验表明,我们的级联算法在三个模型组合上表现出色:Gemma到Gemini、Mistral到GPT-4、Llama到Claude。结果显示,我们的方法有效地将Mistral模型在Qasper数据集上的VC从63.81%减少到16.16%。

    4. 实验设置

    4.1 数据集构建

    我们选择了五个数据集进行实验,其中包括Qasper、LongBench、NarrativeQA、NQ30和MMLU。每个数据集都经过精心挑选,以确保样本的质量和挑战性。

    4.2 模型选择

    在实验中,我们使用了包括GPT、Claude、Gemini、Llama、Gemma、Mistral在内的六个系列共14个LLMs。每个模型都进行了特定的设置以确保实验的公平性。

    5. 结果与分析

    5.1 冗长补偿的频率和类型

    所有模型在所有数据集上都表现出冗长补偿行为。通过对人类注释的分析,我们发现冗长补偿行为主要表现为五种类型,其中不同模型和数据集的冗长类型分布不同。

    5.2 冗长补偿与性能的关系

    冗长和简洁响应之间的性能差距显著。对于大多数数据集和模型,冗长响应的性能较低,表明需要紧急解决冗长与真实性的纠缠问题。

    5.3 不确定性与冗长补偿

    通过不确定性评估,我们发现所有模型在生成较长响应时表现出更高的不确定性。这进一步验证了冗长补偿行为与不确定性之间的联系。

    5.4 使用级联模型选择来缓解冗长补偿

    通过级联算法,与单一模型相比,冗长补偿的频率大幅降低。这表明级联算法在减轻冗长补偿方面的有效性。

    结论

    本文系统地分析了LLM响应的冗长补偿行为。我们首先将冗长分类为五种类型,并发现所有模型在冗长响应上表现出高频率。我们进一步探索了背后的原因,发现不确定性与此现象高度相关。最后,我们提出的级联模型选择算法在缓解冗长补偿方面非常有效。

    参考文献

    1. Juola, P. (2008). Linguistic analysis and verbosity.
    2. Strunk Jr, W., & White, E. B. (2007). The Elements of Style.
    3. Demir, S. (2019). Educational implications of verbosity.
    4. Brookshire, R. H., & McNeil, M. R. (2014). Psychology of verbosity.
    5. Oppenheimer, D. M. (2006). The Secret Life of Flattery.
  • 🎙️ MaskGCT: 探索零样本文本到语音转换的未来


    🎯 概述

    在文本到语音(TTS)领域,MaskGCTMasked Generative Codec Transformer)带来了革命性的创新。它是一个完全非自回归的TTS模型,不再依赖文本和语音的显式对齐信息,也不需要进行音素级的时长预测。简而言之,MaskGCT是一个两阶段模型:第一阶段从文本预测语义令牌,这些令牌来自于一个自监督学习(SSL)语音模型;第二阶段,模型根据这些语义令牌预测声学令牌。

    MaskGCT遵循“掩码与预测”的学习范式,训练时预测被掩码的语义或声学令牌,推理时则并行生成指定长度的令牌。最令人兴奋的是,MaskGCT在100,000小时的自然语音数据集上进行训练,实验证明其在质量、相似性和可理解性方面超越了当前的零样本TTS技术。音频示例可以在演示页面体验。


    📰 最新动态

    • 2024/10/19:发布MaskGCT,训练于Emilia数据集,达到零样本TTS的最先进性能(SOTA)。

    🚀 快速开始

    要运行MaskGCT模型,您可以按照以下步骤进行操作:

    1. 克隆仓库并安装环境:您可以选择部分克隆(partial clone)或完整克隆(full clone)。
    2. 运行Jupyter Notebook / Gradio演示 / 推理脚本

    部分克隆

    由于Amphion仓库较大,您可以使用稀疏检出(sparse-checkout)只下载所需的代码:

    # 下载元信息
    git clone --no-checkout --filter=blob:none https://github.com/open-mmlab/Amphion.git
    
    # 进入仓库目录
    cd Amphion
    
    # 设置稀疏检出
    git sparse-checkout init --cone
    git sparse-checkout set models/tts/maskgct
    
    # 下载所需代码
    git checkout main
    git sparse-checkout add models/codec utils

    完整克隆

    如果您希望下载整个仓库,您可以使用以下命令:

    git clone https://github.com/open-mmlab/Amphion.git
    
    # 进入仓库目录
    cd Amphion

    安装环境

    确保您在Amphion目录下。如果不在,请使用cd命令切换到该目录。由于我们使用phonemizer将文本转换为音素,您需要先安装espeak-ng

    # 对于Debian类发行版(如 Ubuntu、Mint 等)
    sudo apt-get install espeak-ng
    
    # 对于RedHat类发行版(如 CentOS、Fedora 等) 
    sudo yum install espeak-ng
    
    # 对于Windows用户,请访问 https://github.com/espeak-ng/espeak-ng/releases 下载.msi安装程序

    然后,使用conda配置环境:

    conda create -n maskgct python=3.10
    conda activate maskgct
    
    pip install -r models/tts/maskgct/requirements.txt

    🧑‍🏫 模型介绍

    MaskGCT提供了以下预训练模型:

    模型名称描述
    Semantic Codec将语音转换为语义令牌。
    Acoustic Codec将语音转换为声学令牌并从中重构波形。
    MaskGCT-T2S使用文本和语义令牌预测语义令牌。
    MaskGCT-S2A根据语义令牌预测声学令牌。

    所有预训练模型均可从HuggingFace下载,您也可以使用HuggingFace的API:

    from huggingface_hub import hf_hub_download
    
    # 下载semantic codec模型
    semantic_code_ckpt = hf_hub_download("amphion/MaskGCT", filename="semantic_codec/model.safetensors")

    🎧 模型评估结果

    MaskGCT在多个数据集上进行了评估,结果展示了其在多个指标上优越的表现:

    系统SIM-O↑WER↓FSD↓SMOS↑CMOS↑
    LibriSpeech test-clean
    Ground Truth0.681.944.05±0.120.00
    VALL-E0.505.903.47 ±0.26-0.52±0.22
    VoiceBox0.642.030.7623.80±0.17-0.41±0.13
    NaturalSpeech 30.671.940.7864.26±0.100.16±0.14
    MaskGCT0.687(0.723)2.634(1.976)0.8864.27±0.140.10±0.16

    这些结果表明,MaskGCT在LibriSpeech等主流数据集上表现优异,特别是在相似性和语音质量方面显示出显著提升。


    ⚙️ 训练数据集

    MaskGCT的训练数据集是Emilia,这是一个多语言、多样化的自然语音数据集,专为大规模语音合成任务设计。在这项工作中,使用了Emilia中的英语和中文数据,总量达100,000小时。


    📚 参考文献

    如果您在研究中使用了MaskGCT,请引用以下文献:

    @article{wang2024maskgct,
      title={MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer},
      author={Wang, Yuancheng and Zhan, Haoyue and Liu, Liwei and Zeng, Ruihong and others},
      journal={arXiv preprint arXiv:2409.00750},
      year={2024}
    }

    🎬 结语

    MaskGCT不仅仅是一个TTS模型,它代表了一个全新的研究方向。通过打破传统的自回归生成框架,MaskGCT真正实现了高效的并行推理,尤其在零样本学习场景中展现了强大的潜力。无论您是研究者还是开发者,MaskGCT都能为更自然、更智能的语音合成提供支持。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 422 | UV: 365
Last updated: 2025-05-01 00:46:04