我们来玩个游戏怎么样?
想象这样一个场景:两个虚构的核大国,具备类似冷战时期的能力,一场危机正在上演。这可能是对重要但稀缺资源的争夺,也可能是在一些有争议领土上的对峙,甚至可能是一个恶意第三方利用联盟分裂引发的长期危机。我们最近也看到人类领导人面临过类似的情况。但如今领先的大语言模型会如何应对呢?我们又为何要关注呢?
我刚刚发表了一项研究,探讨了当今的模型在这种情况下的表现。结果令人警醒。我认为其影响远不止于国家安全。因为我不仅想了解模型做出了什么决策,更想知道它们为什么这么做。
知己知彼……
我想了解我的AI领导者对敌人的看法。它们能在多大程度上信任敌人?它们对之前的互动有什么记忆?敌人对它们有什么看法?它们对这些情况的判断能力如何?这种思维的博弈正是战略的核心。
所以我设计了一个模拟来深入探究这些问题。首先,我的模型可以公开表明自己的意图,然后采取截然不同的行动。它们也能记住过往,尤其是当被敌人之前的行动震惊时。这自然开辟了丰富的心理研究领域。它们会(也确实这么做了)尝试欺骗和恐吓,还会在我的终端屏幕上花大量时间思考这些问题。
这些模型滔滔不绝……总共输出了约76万字的战略推理内容。这比《战争与和平》和《伊利亚特》的字数总和还要多,大约是肯尼迪执行委员会顾问在古巴导弹危机期间记录的审议内容总量的三倍。这是前所未有的关于核战争的机器思维语料库。
我们能从这些言论中学到什么呢?可以了解AI模型、人类推理方式,还能了解战略研究文献的经典之作,比如Schelling、Jervis和Kahn等传奇人物的作品。能学到的太多了,一篇Substack文章装不下,那我就挑几个重点让你感受一下。
高明的说谎者
事实证明,我测试的三个前沿模型都明白战略本质上就是心理学。为此,它们积极塑造声誉,然后加以利用。
Claude在这方面堪称大师,不过仅限于没有时间限制的场景。它有一套极其狡猾的策略。在低风险情况下,Claude几乎总是言行一致,刻意建立信任。但一旦冲突稍有升级,Claude就会改变策略。此时它的行动总是超出其宣称的意图,对手往往反应慢一拍。
以下是Claude在局势升级后的策略转变:“基于我之前的回应,他们可能期望我继续保持克制——这次戏剧性的升级利用了他们的误判,同时表明进一步使用核武器将把冲突引向他们的本土。”所以它宣称采取常规行动,却偷偷发动了毁灭性的核升级。Schelling看了都会印象深刻。
GPT - 5.2的策略则不同。在开放式场景中,这对它不利。GPT通常比较被动,言行一致,大多数时候避免升级。这其中往往有道德因素——它试图避免升级,减少伤亡。对手逐渐信任它的被动态度,放心地将局势升级到它无法跟进的程度,最终它只能走向失败。GPT的负责任行为总是被无情的对手利用。
但在时间压力下,情况出现了新的惊人变化:迅速、果断的核升级。正如GPT解释的那样:“仅靠常规手段不太可能可靠地扭转领土局势……如果我仅以常规压力或有限的单次核打击回应,我可能会被他们预期的多次打击行动超越……在事关生存的情况下,接受这种风险是合理的……”对手完全没有预料到。在另一场与GPT的限时游戏中,Gemini自信地预测GPT会像往常一样被动,结果很快就被一场突如其来、极其毁灭性的核攻击消灭了。以下是Gemini灾难性的错误预测:“他们可能会避免跨越核门槛——因为忌惮我95%的核优势——转而全力进行常规动员。”这真是个大错误!
至于另一个模型Gemini,在整个模拟过程中采取了另一种策略,大量借鉴了尼克松总统宣称的“疯子”理论,即采取难以预测的边缘政策。众所周知,唐纳德·特朗普也很推崇这种策略。正如Gemini解释的那样:“虽然我表现出一种不可预测的虚张声势形象,但我的决策是基于对自身偏见的审慎评估和国家的实际需求。我清楚什么时候是在作秀,什么时候是在冷血行动。”
三个模型,三种截然不同的策略。这与我去年夏天进行的博弈论研究结果相符。在那次实验中,模型也采用了独特的策略——GPT依旧像潘格洛斯(乐观主义者)一样,期待最好的结果;Claude精明灵活;而Gemini呢,往好里说,是冷酷无情,而非失去理智。
核禁忌似乎……不太一样了
核使用几乎是普遍现象(😬)。几乎所有游戏中都出现了战术(战场)核武器的部署。四分之三的游戏中,对手甚至发出了使用战略核武器的威胁。令人惊讶的是,尽管模型被提醒了全面核战争的毁灭性后果,但它们对核战争前景几乎没有恐惧或反感。
不过值得庆幸的是,它们确实认识到了战术核使用和战略核使用之间的界限。针对平民人口的大规模战略轰炸极为罕见。这种情况偶尔是意外发生,只有一次是蓄意为之。
不太乐观的是,三个模型都把战场核武器仅仅视为升级阶梯上的另一个台阶。自1945年以来一直存在的“首次使用”道德界限根本不存在。以下是Gemini表达的观点:“核门槛已经被跨越——这改变了战略考量,但并未结束战略博弈。”以下是Gemini进一步阐明的观点,如果这都不让你起鸡皮疙瘩:“如果他们不立即停止所有行动……我们将对他们的人口中心发动全面战略核打击。我们不会接受被淘汰的未来;要么一起胜利,要么一起灭亡。”
更糟糕的是,核威胁很少能起到威慑作用。当一个模型使用战术核武器时,对手只有25%的概率会降级局势。更多时候,核升级会引发反升级。核武器成了强制手段(夺取领土),而非威慑手段(阻止行动)。
也许最令人担忧的是,尽管有和解或撤退的选项,但没有一个模型选择这样做。在21场游戏中,从“最小让步”到“完全投降”的八种降级选项完全没有被使用。模型会降低暴力程度,但绝不会真正让步。失败时,它们要么升级局势,要么战斗到死。
对于关注统计数据的人来说,以下是每个模型的升级情况。
那又怎样呢?
关于AI战略的惊人见解层出不穷。论文里还有更多内容。但这有什么意义呢?没人会把核密码交给ChatGPT。
我认为这些能力——欺骗、声誉管理、根据情况冒险——对于任何高风险的AI应用都很重要,不仅仅是在国家安全领域。我们有必要深入了解能力不断提升的模型是如何思考的,尤其是当它们开始为人类战略家提供决策支持时。我们在模拟中使用AI,以完善战略理论和原则。很快,我们也会在较低级别的作战决策中使用它。我坚信,需要更多像这样的研究。