最先进的AI大模型,为什么都在挑战《宝可梦》?
创始人
2025-05-12 00:16:56
0

各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。

围棋选手李世石与AlphaGo的五番棋对决已经过去近十年。而后,不论是谷歌的DeepMind在《DOTA2》《星际争霸2》这些项目上击败人类职业选手,还是2023年英伟达宣布开发出能玩《我的世界》的VOYAGER,都在不断证明“游戏”似乎就是AI的天然试验场。

大家体感上应该也能体会到,这十年间AI技术发展迅速,如今的大语言模型,其训练方式、决策过程都与当初的AlphaGo有较大差异,但十年过去,不管是科技公司想展示研究成果,还是吸引不懂技术细节的普通人关注,“让AI玩游戏”依旧是个很常见的手段。

最近,谷歌的AI模型Gemini 2.5 Pro又因为做到了 “独立通关初代《宝可梦》”,再次成了AI领域的热门话题,谷歌的现任CEO Sundar Pichai和DeepMind负责人Demis Hassabis甚至同时发表推文庆祝了这一时刻。

但就像前面提到的,都到了2025年,让AI玩游戏、通关游戏早就不是什么新鲜话题,更何况于1995年发售的初代宝可梦,本来也不以高难度、复杂程度著称,向来以休闲轻松为主的宝可梦系列,哪怕是游戏新手,都能在很短的时间内迅速上手,通关更不是难事。

那为什么让AI通关《宝可梦》就成了件大事?

上世纪80年代被提出的“莫拉维克悖论” (Moravec's paradox)曾提到一个反直觉观点: 人类觉得容易的任务对人工智能来说其实更困难,反之亦然。

提出这一悖论的学者莫拉维克,曾为其写下一段直观解释:“要让电脑如成人般下棋相对容易,但让它拥有像一岁孩童般的感知和行动能力,却相当困难、乃至是不可能的。”

对于这次AI Gemini通关《宝可梦》,就更近似于让AI拥有自己的感知和行动力。

1

对AI来说,“独立通关初代《宝可梦》” 是一个比人类的想象要复杂得多的挑战。

早在今年2月,美国另一家AI科技公司Anthropic就对外公布了名为“Claude Plays Pokémon”的技术实验,实验内容就和它的名称一样,试图让该公司旗下的最新版本AI Claude 3.7 Sonnet体验初代宝可梦游戏,并以“通关游戏”作为实验的最终目标。

这项实验最后以失败告终,Claude 3.7的最终进度是挑战三个道馆、获得三枚徽章, 但哪怕是这个对人类玩家来说微不足道的成就,也是Claude反复迭代了一年的成果。

根据Anthropic公司释出的信息,一年前的3.0版Claude,甚至连游戏最初的“真新镇”都无法走出,之后的3.5版本略有进步,行程来到了“常磐森林”,但依旧无法获得第一个徽章。

进度缓慢的原因不外乎:Claude的每一步决策都会经过漫长思考、毫无意义地重复探索走过的城镇、长时间卡在地图死角,或者反复与一个毫无帮助的路人NPC对话。

Claude的通关过程也面向大众进行了直播

这些行为看似是“人工智障”,远不如在围棋或《星际争霸》这些策略游戏上战胜人类选手的AlphaGo,但这其实是二者训练方式的差异。

前几年那些能在围棋、《DOTA2》等项目中表现出色的AI,开发者通常会为算法提供游戏规则和策略的基础信息,并设置给AI正确行动提供正面回报的奖励函数,这便是经常提到的 “强化学习”。

但对于像Claude、Gemini这种基于大语言模型的AI,针对的不是某款特定的游戏,研究人员并未提供《宝可梦》专属的游戏规则或目标指令,也不会对其进行特定的训练,而是直接让通用的Claude模型操作游戏。

这更近似于让一个对宝可梦游戏完全没有感念的纯新手,通过自己的感知和学习,逐步掌握游戏的过程。

AI需要为画面中的每一个坐标点标注信息,红色被视为无法通过的区域

反倒是宝可梦更复杂的属性克制系统,Claude理解起来非常容易。比如,当游戏提示电属性技能对岩石系宝可梦的“效果一般”时,Claude迅速捕捉到了这个关键信息,并将其应用到后续配队和宝可梦对战策略上。

2

为什么研究人员能肯定AI确实理解了“属性克制”?因为目前的大语言模型,已经可以将完整的思考过程同步呈现给外界。

Claude玩宝可梦时,左侧会同步显示每一步操作的决策过程

这同样也是这一项目试图探索的效果,就像上图展示的那样,Claude在使用比比鸟对战电系的小磁怪时,对自己掌握的四个技能进行了全面分析:

“翅膀攻击这样的飞行系招式对电系宝可梦不是很奏效。”

“起风和电光一闪这样的招式只能造成中等伤害。”

“泼沙只是降低命中率,不造成直接伤害。”

最后Claude做出了总结:

“由于比比鸟在属性上处于劣势,我应该尽快击败小磁怪。我最好的选择可能是翅膀攻击,这是我拥有的最强的招式,尽管它效果一般。让我按三次“下”再按一次“确定”来选择翅膀攻击。”

虽然现在展示的仍是相对浅层的思考,但相比于AlphaGo这种纯“黑箱式”的决策过程,Claude和其他以大语言模型为核心的AI,在实用性上无疑前进了一大步。

要知道早年AlphaGo在围棋领域最令人印象深刻的,便是总能下出让人类难以理解、但最后又能取得胜利的“妙手”,可惜当时经由“强化学习”训练的AlphaGo,决策过程难以用自然语言向人类清晰呈现,否则,人类棋手或许也会从AI的逻辑得到进一步启发。

而对于玩宝可梦的Claude来说,虽然在策略层面没有什么让人类眼前一亮的操作,但在显示了思考过程后,反倒展示了一些“意料之外”的思维逻辑。

比如下面这一幕,当Claude在游戏的“月见山”地图中迷路,认为无法通过正常手段走出洞穴时,AI做了一个非常“人类化”的思考:

“我现在最好的选择是故意输掉一场战斗,这样我就会被传送回上一次访问的宝可梦中心,也就是4号道路上的月见山宝可梦中心,从那里我就可以按之前验证的路径前往华蓝市了。”

再比如,AI也会有“认错NPC”的现象。游戏初期时,Claude被要求寻找NPC“大木博士”,但游戏没有提供明确的指引,也没有说明NPC的具体位置和外形特征,实现这种“模糊目标”对于AI来说其实难度更大。

在接到这个任务后,Claude也进行了一段非常拟人的思考:“我注意到下方出现了一个新角色——一个黑发、身穿白色外套的角色,位于坐标 (2, 10),这可能是大木博士!让我下去和他谈谈。”

随后它便和一个跟主线毫无关系的NPC对话了数次,最终才意识到这并非是自己想找的大木博士。

3

而前几天通关同一版本游戏的AI Gemini之所以受到关注,不仅是因为它能在人类不提供任何规则信息的条件下完成游戏,而且据官方统计,Gemini总操作步数约为10.6万次,甚至比Claude获得第三个徽章时达成的21.5万步要少一半。

Gemini通关初代宝可梦

这看似说明Gemini的智能水平要优于Claude,但负责Gemini项目的研究人员JoelZ自己也表示:无法直接比较这两个AI,因为这不是在完全相同的条件下进行的测试。

区别在于Agent Harness,即“代理执行框架”,它的作用是连接AI模型与游戏,负责处理输入的信息,如游戏画面、文字数据等,并将模型的决策转化为按键指令等操作。

从官方公布的信息看,Gemini的代理执行框架在某些程度的确优于Claude,比如在对地图的分析上,它不仅为每个区域标注了坐标,而且还注明了坐标的可通行状态,这对于不擅长直接解析像素画面的大语言模型来说,提供了巨大的帮助:

但就像开发者自己说的,让AI玩宝可梦,意义并不在于对比不同AI的水平高低。

像《宝可梦》这类游戏,更需要AI感知环境、理解模糊目标、长线规划行动的能力,它必须不断接收游戏画面、理解不同阶段的规则,并将决策转换为游戏操作。之所以执着于让AI操作这类游戏,也因为如果AI能够在人类没有干预的情况下通关,也说明了它拥有能独立学习,解决现实中某些复杂问题的潜力。

从早年的围棋到现在的《宝可梦》,AI在实验和“秀肌肉”环节的逐年演变,并不单是个吸引大众关注的噱头,其实一定程度上也代表了这项技术的发展方向:从处理单一问题的专才,到能够自我学习,解决不同领域问题的通用人工智能。

或许这正是众多AI科技公司选择《宝可梦》来用作训练的原因:这款游戏本身便是关于成长、选择与冒险的旅程。过去,我们在游戏中体验进化与策略,而现在,AI正在游戏中尝试理解世界的规则本身。

相关内容

热门资讯

冰川、实丰“杀疯”,一吸量元素... 文 | DataEye 近期,DataEye研究院发现,冰川、实丰网络在转刀like上持续发力。 ...
【淘机】任天堂独家裸眼3D技术... 大家好,昨天的苹果3DS模拟器文章引起了大家的热议。 一部分玩友欢呼雀跃,3DS终于登陆ios了。 ...
原创 七... 七日世界手游自动炼油厂怎么造?众所周知游戏中油也可以作为液体流动,因此要建造炼油厂要明白一个物理常识...
《桌面小恐龙》2025年5月1... 独立游戏《桌面小恐龙》于2025年5月12日发售,免费开玩! 《桌面小恐龙》是一款位于屏幕底端,陪...
原创 超... 超自然行动组被称为手游版致命公司,其中一个原因就是游戏中也需要面对各种花里胡哨的怪物,本期攻略整合了...
重大变化!!中美双方降低超10... 重大变化!中美双方降低超 100%关税,这一举措堪称中美贸易关系的里程碑。这意味着双方在经贸领域迈出...
《毁灭战士:黑暗时代》新截图泄... 《毁灭战士:黑暗时代》将于5月15日发售。但本作似乎已偷跑,有人声称已提前拿到收藏版并通关,还在网上...
原创 中... 不出海,就出局。 目前,“走出去”已成为游戏圈内共识。 5月7日,第三方数据分析公司Sensor T...
中美相互24%关税90天内暂停... 近日,中美贸易关系迎来突破性进展!双方决定在 90 天内暂停实施相互 24%的关税。这一举措彰显了两...
新进展!中美双方降低超100%... 中美双方降低超 100%关税,这无疑是中美经贸关系迎来的重大变化。这一举措彰显了双方推动经贸合作、化...
最新!中美双方降低超100%关... 最新消息!中美双方在经贸领域取得重大突破,大幅降低超过 100%的关税。这一举措无疑为两国经贸关系迎...
迅游科技涨4.27%,成交额1... 5月12日,迅游科技涨4.27%,成交额1.57亿元,换手率4.99%,总市值38.18亿元。 异动...
《第一后裔》将联动《尼尔》有2... 近日Nexon Games公布了《第一后裔》第三赛季更新内容,该更新将于今夏上线,包含新战场、突袭战...
《罪恶装备:STRIVE》新D... 5月12日,亚克系统发布了《罪恶装备:STRIVE》新DLC角色“Unika”的预告视频,并宣布该角...
FC PRO大师赛接近尾声,G... 5月8日,FC电竞赛事迎来一项大型赛事——FC PRO大师赛。此赛事是2025年亚洲首个大型的FC电...
中美相互24%关税90天内暂停... 近日,中美经贸关系迎来重大突破!双方决定在 90 天内暂停实施相互 24%的关税。这一举措堪称中美经...
原创 看... 近日,《恶意不息》制作人在社交平台上发送的一系列“威胁式”求好评文案,可能真要把自家工作室给折腾没了...
原创 踏... 踏风行公测定档516!踏风行公测福利大汇总!踏风行手游倒计时四天,公测首日送100抽,首周送390抽...
暴涨近13000点 巴基斯坦股... 近日,巴基斯坦股市迎来了惊人的一幕。在一系列复杂的市场动态影响下,股市竟然暴涨近 13000 点,这...
“中国可没要让加拿大变成一个省... 中国一直秉持着和平共处、平等互利的外交原则,从未有过让加拿大变成一个省的想法。中加两国在诸多领域有着...