游戏中的觉醒:大模型如何从虚拟战场中学会思考与行动

想象一下,你是一个普通的游戏爱好者,坐在电脑前,操控着王者荣耀里的英雄,脑中飞速转动着策略:是推塔还是偷龙?是...

想象一下,你是一个普通的游戏爱好者,坐在电脑前,操控着王者荣耀里的英雄,脑中飞速转动着策略:是推塔还是偷龙?是团战还是发育?现在,如果我告诉你,一个人工智能——一个大语言模型——也能像你一样,在这个充满变数的战场上「边玩边学」,并且还能用人类般的语言解释它的每一步决策,你会不会觉得这像科幻小说里的情节?没错,这就是腾讯最新提出的Think-In-Games (TiG) 框架带来的革命。它不只是让AI玩游戏那么简单,而是让AI在游戏中觉醒,桥接了「知道为什么」和「知道怎么做」的鸿沟。就像一个初入江湖的侠客,通过无数次实战磨砺,最终成为武林高手,这个框架让参数仅有14亿的Qwen-3-14B模型,击败了671亿参数的Deepseek-R1,动作精准度高达90.91%。让我们一起踏入这个虚拟战场,探索TiG如何让大模型从静态的「书呆子」变成动态的「战场指挥官」。


友情链接: 借一步  背多分   ACEJoy


 


🌟 从知识到行动的桥梁:大模型在游戏中的困境与突破

大语言模型(LLMs)就像一座庞大的图书馆,里面塞满了世界上的各种知识:从数学定理到编程代码,从历史事件到文学诗篇。它们能轻松解答复杂问题,比如解释量子力学的奇妙,或者编写一段优雅的Python脚本。但当面对一个简单的互动任务时,比如在游戏中导航一个迷宫,或者理解因果关系,它们往往束手无策。这就好比一个博学多才的学者,知道所有理论,却不会骑自行车——理论上明白平衡的重要性,实践中却摔得鼻青脸肿。为什么会这样?因为LLMs掌握的是「陈述性知识」(declarative knowledge),即「知道关于某事」,而缺少「程序性知识」(procedural knowledge),即「知道怎么做」。年轻的孩子通过玩耍就能轻松掌握这些互动技能,比如扔球时预判轨迹,但LLMs的训练数据大多是静态文本,无法模拟真实的环境互动。

> 陈述性知识就像一本百科全书,你能随时翻阅事实;程序性知识则像骑自行车,一旦学会,就内化成肌肉记忆。TiG框架正是为了弥合这个差距,让LLMs通过游戏互动,将书本知识转化为实战技能。这不仅提升了AI的实用性,还让它能解释决策过程,提高透明度。

在数字游戏的世界里,这个问题尤为突出。游戏环境提供了一个完美的沙盒:可控、可重复,却充满不确定性。传统的AI方法,如搜索算法、启发式规则或强化学习(RL),能在游戏中取得成绩,但它们往往需要海量数据和计算资源,而且像黑盒子一样,无法解释为什么这么做。想象一个象棋大师,他下出妙手却说不出原因,你会信任他吗?LLMs正好相反:它们有丰富的世界知识和推理能力,却无法动态应用到游戏中,因为预训练数据是静态的,无法捕捉实时反馈。

TiG框架的出现,就像给这个学者配上了一辆智能自行车,让他边骑边学。它将强化学习决策重新定义为语言建模任务,让LLMs生成由语言指导的策略,然后根据环境反馈,通过在线强化学习迭代优化。这不仅仅是技术融合,更是哲学上的突破:桥接了LLMs的「知其所以然」(为什么)和RL的「知其然」(怎么做)。在王者荣耀这个MOBA(多人在线竞技场)游戏中,TiG让模型直接行动并解释原因,专注于宏观层面的推理,比如长期目标和团队协同,而不是微观动作如精确技能释放。就像一个金牌教练,而不是职业选手,它能判断场上局势,制定策略,如「推上路」或「防守基地」。

基于参考文献,我们可以看到TiG的核心在于将决策转化为文本。模型读取JSON格式的游戏状态,包括英雄属性、发育情况、兵线、防御塔、资源和视野等,然后从固定菜单中选择宏操作,并给出理由。例如,在一个场景中,阿古朵和队友姜子牙在中路推进,目标是敌方一座血量较低的一塔。模型先评估状态:「防御塔和野区保护机制已失效」(进入中期),然后分析优先目标(摧毁中路一塔),制定策略(联合姜子牙集中火力),并提示风险(如敌方埋伏)。最后,它建议阿古朵「保持安全距离输出」,与姜子牙的控制协同,并输出指令:「联合姜子牙推掉敌方中路一塔,注意敌方可能埋伏」。这不只是命令,更是完整的推理链条,让AI的决策透明可读。


🕹️ 战场上的数据采集:如何从真实对局中提炼智慧

要让AI在游戏中「边玩边学」,首先需要高质量的数据。参考文献详细描述了研究团队从真实王者荣耀对局中采样的过程,但单纯采样不够,因为游戏状态是连续的,而宏动作(如「夺龙」)往往是间断的。这就好比从一部电影中提取关键情节:你不能只看随机帧,而要确保每个帧都关联到最重要的故事线。为此,他们提出了「重新标注算法」(relabeling algorithm),这是一个巧妙的机制,确保每个游戏状态都带有一个宏观级别的动作标签。

算法分为两步:首先,在帧窗口内进行向后填充(backward filling),即从一个已知动作向后追溯,填充前面的状态;其次,通过优先级覆盖机制(priority override),确保每个状态标注为最关键的宏动作。比如,如果一个状态同时可能对应「推进」和「防守」,算法会根据优先级(如紧急防守高于一般推进)选择最合适的标签。这样得到的序列密集且一致,为后续训练提供稳健信号。想象一下,你在回顾一场足球比赛的录像,不是随意剪辑,而是用智能算法标记每个时刻的「进攻高潮」或「防守危机」,这让学习过程更高效。

> 重新标注算法像一个聪明的剪辑师,它不只是被动记录,而是主动优化标签,确保数据「言之有物」。这避免了稀疏标签的问题,在RL中常见,因为动作不总是即时发生。通过优先级覆盖,它模拟人类玩家的决策焦点,让模型学习到真正重要的战略转折点。

在数据构建中,研究团队强调了宏动作空间的有限性:只有40个预定义的团队目标(详见附录表5),如「Push Top Lane」(推上路)、「Secure Dragon」(夺龙)。这简化了问题,避免了微观操作的复杂性,如精确瞄准技能。游戏状态用JSON表示,每一步捕捉可见信息:队友英雄的血量、位置、技能冷却等,但排除隐藏数据如敌方视野盲区。这反映了真实游戏的「不完美信息」特性,让模型学会在不确定中推理。

为了可视化,我们可以从参考文献的配图中提取一个表格,描述宏动作的分类:

| 类别 | 示例动作 | 描述 |
|——|———-|——|
| 推进 | Push Mid Lane | 集中火力摧毁中路塔楼,促进地图控制 |
| 防守 | Defend Base | 保护基地免受敌方入侵,优先团队集结 |
| 资源 | Secure Dragon | 争夺龙资源,提升团队buff |
| 协同 | Team Fight | 发起或响应团战,协调英雄技能 |

—-
这个表格源于论文附录,展示了动作的多样性,确保模型覆盖从进攻到防守的全谱策略。

此外,参考X帖子的媒体图片
!TiG框架在王者荣耀中的应用示例
显示了一个游戏场景截图,英雄阿古朵在中路推进,旁边是JSON状态和模型输出的推理文本。这张图完美体现了TiG的透明性:不只是行动,还有解释。

通过这些数据,TiG构建了一个数据集,不仅包括状态-动作对,还融入了人类玩家的战略规划。这让模型在训练中,能从实战积累过程性知识,同时保持通用语言能力。


🔍 GRPO算法的魔力:如何让模型在反馈中迭代成长

现在,我们进入TiG的核心引擎:Group Relative Policy Optimization (GRPO) 算法。这是一种在线强化学习方法,专为LLMs设计,旨在最大化生成内容的优势,同时限制策略与参考模型之间的分歧。比喻来说,GRPO就像一个严格却公正的教练:它不让你偏离基本功(参考模型),但鼓励你发挥优势,逐步提升。

正式定义中,GRPO基于相对策略优化,公式为:

    \[ L(theta) = mathbb{E}_{x sim D} left[ log sigma left( frac{1}{K} sum_{k=1}^K left( r(x, y_k) - r(x, y_{ref}) right) right) right] + beta cdot D_{KL}(p_theta | p_{ref}) \]

其中,(theta) 是模型参数,( D ) 是数据集,( r ) 是奖励函数,(y_k) 是生成的样本,(y_{ref}) 是参考输出,(sigma) 是sigmoid函数,(beta) 是KL散度惩罚系数。

> 这个公式捕捉了GRPO的本质:前项鼓励高奖励样本,后项防止过度偏离参考策略。(r(x, y_k)) 表示对生成y_k的奖励,相比参考的差值驱动优化。KL散度确保稳定性,避免模型「走火入魔」。

奖励设置简单却有效:基于二元规则,当预测操作与人类游戏玩法匹配时为1,否则为0。这保持了更新的稳定性和低成本,避免了复杂奖励工程。相比传统RL的稀疏奖励,TiG的密集标签(感谢重新标注算法)让反馈更及时。

在实践中,GRPO与监督微调(SFT)结合,形成多阶段训练:先SFT从Deepseek-R1提取数据,注入强大推理能力;然后在线RL使用GRPO迭代。实验探索了多种组合:仅GRPO、仅SFT、SFT+GRPO。结果显示,组合方式最优。

想象一个新兵训练营:SFT是基础理论课,教你战略知识;GRPO是实战演习,通过反馈磨炼技能。TiG就这样,�

留下评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1