85个模型的 scaling 实验告诉你：LLM 社会模拟会随规模变好吗？答案让人又乐观又警惕

> 论文：Will Scaling Improve Social Simulation with LLMs? > 作者：Caleb Ziems, William Held, Su Doga Karaca, David Grusky, Tatsunori Hashimoto, Diyi Yang > 机构：Stanford University, Open Athena > 链接：https://arxiv.org/abs/2607.02464 > 代码：https://github.com/SALT-NLP/social-scaling

—

一个让社会学家既兴奋又焦虑的问题

过去两年，越来越多的社会学家开始用 LLM 做「社会模拟」——让 LLM 扮演不同人群，回答问卷、做决策、甚至模拟长期行为变化。这比传统 agent-based modeling 快几个数量级，成本也低得多。

但所有人心里都有一个悬而未决的问题：现在的 LLM 模拟还不够准，但如果我们把模型做得更大，它会变准吗？

这个问题看似简单，答案却完全未知。原因在于社会模拟和传统 NLP 任务有本质区别：

– 传统任务（问答、翻译）有明确答案，模型越大越准几乎是定律 – 社会模拟要求模型匹配一个分布——某个人群中有 30% 的人选 A、50% 选 B、20% 选 C，模型需要复现这个分布，而不是给出一个「正确答案」

分布匹配是否随规模改善？没有人系统地测过。直到这篇论文。

实验规模：85 个模型，从 10^18 到 10^20 FLOPs

斯坦福团队做了一件非常硬核的事：用固定的 Qwen3 架构，在 DCLM 网页文本语料上，从 10^18 到 10^20 FLOPs 预训练了 85 个不同规模的 transformer 模型。

这 85 个模型构成了一个干净的 scaling 曲线——同架构、同数据、同训练策略，唯一变量是计算量。然后他们又评估了 35 个更大的开源模型（最大 70B），用来验证 scaling law 的外推能力。

三个测试领域：

1. 意见模拟（WVS）：世界价值观调查，让模型模拟不同国家人群的问卷回答 2. 行为模拟（Psych-101）：心理学实验，让模型模拟人类在认知任务中的决策 3. 纵向预测（ACL）：追踪同一人群随时间变化的福祉水平

令人惊讶的发现：scaling 确实有效

结果是反直觉的——至少对作者来说。

在所有三个领域，compute scaling 都显著有效。模型从 10^18 涨到 10^20 FLOPs，模拟保真度持续上升。这意味着：如果你现在觉得 LLM 社会模拟不够准，等下一代模型出来，它大概率会变好。

更具体地说：

– 意见模拟：在英语网页语料中代表性好的人群（如欧美主流人群），scaling 效果最强 – 行为模拟：大部分任务随规模改善，尤其是涉及独立、稳定奖励分布的决策任务 – 纵向预测：也有 scaling，但速度最慢

这个发现让社会学家松了口气——当前 scaling 范式不是死路，社会模拟不需要等一个全新的范式突破，跟着 scaling 走就行。

但有三个「但是」

但是一：代表性不足的人群会被抛下

论文发现一个残酷的规律：一个人群在英语网页语料中的代表性越高，scaling 对它的改善越大。

这意味着：欧美白人中产阶级的意见会越来越准地被模拟，而少数族裔、非英语人群、边缘群体的意见改善速度会慢得多。scaling 不是中性的，它会放大现有的数据不平等。

类比：这就像互联网本身——搜索引擎让信息获取民主化了，但英语内容比小语种内容增长快得多，数字鸿沟反而扩大了。

但是二：认知偏差不 scale

在行为模拟中，有一类任务完全不随规模改善——人类的认知偏差。

比如风险厌恶：人类在面对赌局时会系统性地过度回避风险，这是认知心理学最经典的发现之一。但 LLM 越大，它并没有变得更「像人」一样风险厌恶。即使从 0.5B 涨到 8B，fine-tuned 模型的风险厌恶校准几乎没有改善。

再比如关联奖励学习：当多个任务之间有相关性，人类会用从一个任务学到的经验去指导另一个任务（启发式迁移），但 LLM 在这类任务上也不 scale。

为什么？ 论文的分析是：这些能力依赖于「对人类认知结构的隐式理解」，而这恰恰不是预训练目标（next-token prediction）直接优化的东西。模型学会了语言的统计规律，但没有学会人类决策的认知结构。

但是三：三分之一的任务 scaling 拟合很差

在行为模拟中，约 1/3 的任务 compute scaling law 拟合度很低（r² < 0.3）。也就是说，对这些任务，模型规模和模拟保真度之间几乎没有可预测的关系。

这些「不 scale」的任务有一些共同特征： – 涉及个体差异（如精神疾病患者群体的决策模式） – 涉及非平稳奖励（奖励分布随时间变化的赌局） – 涉及人群偏态分布（样本中某类人很少，模型见过的数据不够）

一个更深的发现：什么能力预测模拟保真度？

论文做了一个非常有意思的分析：哪些通用 benchmark 能预测社会模拟能力？

答案出乎意料：

– 正相关：知识密集型 benchmark（MMLU 等）和知识推理能力 → 模拟保真度高 – 负相关/无关：编程能力和多步形式推理 → 对社会模拟几乎没帮助

论文定义了一个 PC-1（第一主成分），发现它和社会模拟保真度高度线性相关。这意味着：社会模拟的核心是「世界知识」，不是「推理能力」。一个懂历史、懂社会学、懂文化的模型，比一个会做数学题的模型更擅长模拟人类社会。

这对未来模型训练有直接启示：如果你想提升社会模拟能力，增加人文社科数据的比重，可能比增加代码和数学数据更有效。

诚实评价

这篇论文有几个值得注意的局限：

1. 只测了有限维度：三个子领域不能覆盖所有社会模拟场景，开放式生成和 agentic 系统没有测 2. Qwen3 架构单一：不同架构可能有不同的 scaling 特性 3. PC-1 的因果性不明：知识和模拟保真度相关，但不确定是因果关系还是共同因素驱动 4. 「保真度」的定义：分布匹配不等于行为真实——模型可能碰巧匹配了分布，但生成的「内心过程」和人类完全不同

对 AI 研究的启示

这篇论文对 AI 研究者有三个重要启示：

1. Scaling 不是万能的，但比预期更接近万能

在传统 NLP 任务上 scaling 一定有效，在社会模拟上 scaling 大部分有效但有盲区。识别盲区比庆祝成功更重要——那些不 scale 的任务，恰恰是需要专门研究的地方。

2. 预训练数据构成决定 scaling 方向

如果训练数据里某个人群、某种认知模式代表性不足，scaling 会放大这种不平衡。未来的社会模拟模型，可能需要在数据层面做有针对性的平衡，而不是单纯依赖 scale。

3. 通用能力 ≠ 社会模拟能力

编程和数学推理能力对社会模拟几乎没帮助。这意味着未来的「社会模拟专用模型」可能需要和「通用推理模型」分道扬镳——一个追求世界知识的广度，一个追求逻辑推理的深度。

结语

这篇论文最让我印象深刻的是它的诚实。它没有简单地说「scaling 有效」或「scaling 无效」，而是精细地描绘了 scaling 的边界——在哪里有效，在哪里失效，为什么失效。

对社会学家来说，这是一个好消息和一个坏消息。好消息是：LLM 社会模拟会越来越好，不用等范式突破。坏消息是：它会在「本来就容易被模拟的人群」上越来越好，而在「本来就难以被模拟的人群」上改善缓慢。

Scaling 不会自动解决公平问题。它只会让强者更强。

—

论文链接：https://arxiv.org/abs/2607.02464 代码仓库：https://github.com/SALT-NLP/social-scaling