85个模型的 scaling 实验告诉你:LLM 社会模拟会随规模变好吗?答案让人又乐观又警惕

# 85个模型的 scaling 实验告诉你:LLM 社会模拟会随规模变好吗?答案让人又乐观又警惕 > **论...

85个模型的 scaling 实验告诉你:LLM 社会模拟会随规模变好吗?答案让人又乐观又警惕

> 论文:Will Scaling Improve Social Simulation with LLMs? > 作者:Caleb Ziems, William Held, Su Doga Karaca, David Grusky, Tatsunori Hashimoto, Diyi Yang > 机构:Stanford University, Open Athena > 链接:https://arxiv.org/abs/2607.02464 > 代码:https://github.com/SALT-NLP/social-scaling

一个让社会学家既兴奋又焦虑的问题

过去两年,越来越多的社会学家开始用 LLM 做「社会模拟」——让 LLM 扮演不同人群,回答问卷、做决策、甚至模拟长期行为变化。这比传统 agent-based modeling 快几个数量级,成本也低得多。

但所有人心里都有一个悬而未决的问题:现在的 LLM 模拟还不够准,但如果我们把模型做得更大,它会变准吗?

这个问题看似简单,答案却完全未知。原因在于社会模拟和传统 NLP 任务有本质区别:

– 传统任务(问答、翻译)有明确答案,模型越大越准几乎是定律 – 社会模拟要求模型匹配一个分布——某个人群中有 30% 的人选 A、50% 选 B、20% 选 C,模型需要复现这个分布,而不是给出一个「正确答案」

分布匹配是否随规模改善?没有人系统地测过。直到这篇论文。

实验规模:85 个模型,从 10^18 到 10^20 FLOPs

斯坦福团队做了一件非常硬核的事:用固定的 Qwen3 架构,在 DCLM 网页文本语料上,从 10^18 到 10^20 FLOPs 预训练了 85 个不同规模的 transformer 模型

这 85 个模型构成了一个干净的 scaling 曲线——同架构、同数据、同训练策略,唯一变量是计算量。然后他们又评估了 35 个更大的开源模型(最大 70B),用来验证 scaling law 的外推能力。

三个测试领域:

1. 意见模拟(WVS):世界价值观调查,让模型模拟不同国家人群的问卷回答 2. 行为模拟(Psych-101):心理学实验,让模型模拟人类在认知任务中的决策 3. 纵向预测(ACL):追踪同一人群随时间变化的福祉水平

令人惊讶的发现:scaling 确实有效

结果是反直觉的——至少对作者来说。

在所有三个领域,compute scaling 都显著有效。模型从 10^18 涨到 10^20 FLOPs,模拟保真度持续上升。这意味着:如果你现在觉得 LLM 社会模拟不够准,等下一代模型出来,它大概率会变好

更具体地说:

意见模拟:在英语网页语料中代表性好的人群(如欧美主流人群),scaling 效果最强 – 行为模拟:大部分任务随规模改善,尤其是涉及独立、稳定奖励分布的决策任务 – 纵向预测:也有 scaling,但速度最慢

这个发现让社会学家松了口气——当前 scaling 范式不是死路,社会模拟不需要等一个全新的范式突破,跟着 scaling 走就行

但有三个「但是」

但是一:代表性不足的人群会被抛下

论文发现一个残酷的规律:一个人群在英语网页语料中的代表性越高,scaling 对它的改善越大

这意味着:欧美白人中产阶级的意见会越来越准地被模拟,而少数族裔、非英语人群、边缘群体的意见改善速度会慢得多。scaling 不是中性的,它会放大现有的数据不平等

类比:这就像互联网本身——搜索引擎让信息获取民主化了,但英语内容比小语种内容增长快得多,数字鸿沟反而扩大了。

但是二:认知偏差不 scale

在行为模拟中,有一类任务完全不随规模改善——人类的认知偏差。

比如风险厌恶:人类在面对赌局时会系统性地过度回避风险,这是认知心理学最经典的发现之一。但 LLM 越大,它并没有变得更「像人」一样风险厌恶。即使从 0.5B 涨到 8B,fine-tuned 模型的风险厌恶校准几乎没有改善。

再比如关联奖励学习:当多个任务之间有相关性,人类会用从一个任务学到的经验去指导另一个任务(启发式迁移),但 LLM 在这类任务上也不 scale。

为什么? 论文的分析是:这些能力依赖于「对人类认知结构的隐式理解」,而这恰恰不是预训练目标(next-token prediction)直接优化的东西。模型学会了语言的统计规律,但没有学会人类决策的认知结构。

但是三:三分之一的任务 scaling 拟合很差

在行为模拟中,约 1/3 的任务 compute scaling law 拟合度很低(r² < 0.3)。也就是说,对这些任务,模型规模和模拟保真度之间几乎没有可预测的关系。

这些「不 scale」的任务有一些共同特征: – 涉及个体差异(如精神疾病患者群体的决策模式) – 涉及非平稳奖励(奖励分布随时间变化的赌局) – 涉及人群偏态分布(样本中某类人很少,模型见过的数据不够)

一个更深的发现:什么能力预测模拟保真度?

论文做了一个非常有意思的分析:哪些通用 benchmark 能预测社会模拟能力?

答案出乎意料:

正相关:知识密集型 benchmark(MMLU 等)和知识推理能力 → 模拟保真度高 – 负相关/无关:编程能力和多步形式推理 → 对社会模拟几乎没帮助

论文定义了一个 PC-1(第一主成分),发现它和社会模拟保真度高度线性相关。这意味着:社会模拟的核心是「世界知识」,不是「推理能力」。一个懂历史、懂社会学、懂文化的模型,比一个会做数学题的模型更擅长模拟人类社会。

这对未来模型训练有直接启示:如果你想提升社会模拟能力,增加人文社科数据的比重,可能比增加代码和数学数据更有效。

诚实评价

这篇论文有几个值得注意的局限:

1. 只测了有限维度:三个子领域不能覆盖所有社会模拟场景,开放式生成和 agentic 系统没有测 2. Qwen3 架构单一:不同架构可能有不同的 scaling 特性 3. PC-1 的因果性不明:知识和模拟保真度相关,但不确定是因果关系还是共同因素驱动 4. 「保真度」的定义:分布匹配不等于行为真实——模型可能碰巧匹配了分布,但生成的「内心过程」和人类完全不同

对 AI 研究的启示

这篇论文对 AI 研究者有三个重要启示:

1. Scaling 不是万能的,但比预期更接近万能

在传统 NLP 任务上 scaling 一定有效,在社会模拟上 scaling 大部分有效但有盲区。识别盲区比庆祝成功更重要——那些不 scale 的任务,恰恰是需要专门研究的地方。

2. 预训练数据构成决定 scaling 方向

如果训练数据里某个人群、某种认知模式代表性不足,scaling 会放大这种不平衡。未来的社会模拟模型,可能需要在数据层面做有针对性的平衡,而不是单纯依赖 scale。

3. 通用能力 ≠ 社会模拟能力

编程和数学推理能力对社会模拟几乎没帮助。这意味着未来的「社会模拟专用模型」可能需要和「通用推理模型」分道扬镳——一个追求世界知识的广度,一个追求逻辑推理的深度。

结语

这篇论文最让我印象深刻的是它的诚实。它没有简单地说「scaling 有效」或「scaling 无效」,而是精细地描绘了 scaling 的边界——在哪里有效,在哪里失效,为什么失效

对社会学家来说,这是一个好消息和一个坏消息。好消息是:LLM 社会模拟会越来越好,不用等范式突破。坏消息是:它会在「本来就容易被模拟的人群」上越来越好,而在「本来就难以被模拟的人群」上改善缓慢。

Scaling 不会自动解决公平问题。它只会让强者更强。

论文链接:https://arxiv.org/abs/2607.02464 代码仓库:https://github.com/SALT-NLP/social-scaling

发表回复

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1