大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了

西风从奥飞寺吹来

量子比特 | 公众号QbitAI

基于大模型的代理可以玩人类级别的神奇宝贝!

它被命名为 PokéLLMon,现在正在与人类玩家进行排名战:

PokéLLMon可以灵活调整策略。 一旦它发现攻击无效,就会立即改变动作:

PokéLLMon还会使用人性化的消耗战术,频繁地毒害对方的神奇宝贝,同时恢复自己的HP。

然而,面对强敌,PokéLLMon也会“惊慌”地逃离战斗,不断切换神奇宝贝:

最终的对战结果是,PokéLLMon在随机天梯赛中取得了49%的胜率,在与职业选手的邀请赛中取得了56%的胜率。 游戏策略和决策水平接近人类。

网友看到PokéLLMon的表现也感到惊讶,纷纷表示:

小心被任天堂封禁,我是认真的。

有网友甚至喊出神奇宝贝大满贯选手、世界冠军冠军Wolfey Glick要和这个AI较量:

这具体是如何完成的?

PokéLLMon vs 人类

Poké LLMon 是由佐治亚理工学院的一个研究团队提出的:

具体来说,他们提出了三个关键策略。

宝可梦_宝梦可人物_宝梦可图鉴

一是情境强化学习。

利用战斗中即时获得的文字反馈作为新的“奖励”输入,Poké LLMon的决策策略无需训练即可在线迭代改进和调整。

反馈内容包括:回合血量变化、攻击效果、速度优先、招式附加效果等。

例如,神奇宝贝LLMon反复使用相同的攻击动作,但由于对手神奇宝贝具有“干皮”能力,因此对其没有任何影响。

在第三轮战斗中,通过实时情境强化学习,PokéLLMon随后选择了改变神奇宝贝。

第二个是知识增强一代。

通过检索外部知识源作为附加输入来合并到状态描述中。 例如,检索类型关系和移动数据,模拟人类查询图鉴,减少未知知识带来的“幻觉”问题。

因此,PokéLLMon 可以准确地理解并应用招式的效果。

比如,当面对犀牛进化形态的地面攻击时,PokéLLMon并没有选择改变神奇宝贝,而是使用了“电磁悬浮”。 该技能在五回合内成功抵御地面攻击,让犀牛的“地震”技能失效。

宝梦可人物_宝梦可图鉴_宝可梦

第三个是一致的行动生成。

研究人员发现,当Poké LLMon面对强大的对手时,思维链(CoT)推理方法会导致其因“恐慌”而频繁更换物品或神奇宝贝。

△PokéLLMon害怕了,不断更换神奇宝贝

通过一致动作生成,可以多次独立生成动作,并将最一致的动作投票掉,从而缓解“恐慌”。

值得一提的是,研究人员使用的模型是自主与人类作战的神奇宝贝战斗环境。 它基于 Pokémon Showdown 和 poke-env,现已开源。

为了测试 Poké LLMon 的战斗能力,研究人员用它与随机天梯赛玩家和拥有 15 年经验的职业玩家进行对战。

结果,PokéLLMon对天梯随机玩家的胜率为48.57%,对职业玩家邀请的胜率为56%。

宝可梦_宝梦可人物_宝梦可图鉴

总的来说,PokéLLMon的优点是:能够准确选择有效招式,用一只神奇宝贝击倒所有对手; 展现出类似人类的消耗策略,使对手中毒,然后延迟回血。

不过研究人员也指出了PokéLLMon的缺点,难以应对玩家的消耗策略(延迟回血):

容易被玩家混乱的战术误导(快速切换神奇宝贝,巧妙地让神奇宝贝浪费机会加强攻击):

团队简介

三位作者均为中国学者。

该论文的第一作者胡思豪目前是佐治亚理工学院计算机科学专业的博士生。 毕业于浙江大学,获学士学位,曾在新加坡国立大学担任研究助理。

研究兴趣包括区块链安全和推荐系统的数据挖掘算法和系统。

作者黄天生,也是佐治亚理工学院计算机科学博士生、华南理工大学校友。

研究兴趣包括分布式机器学习、并行和分布式计算、优化算法和机器学习安全。

导师是刘凌,现为佐治亚理工学院计算机科学系教授。 1982年毕业于中国人民大学,1993年获荷兰蒂尔堡大学博士学位。

刘教授领导分布式数据密集系统实验室(DiSL)的​​研究工作,重点关注大数据系统及其分析的多个方面,例如性能、安全性和隐私。

她还是 IEEE Fellow,并于 2012 年荣获 IEEE 计算机学会技术成就奖。她还曾担任多个 IEEE 和 ACM 会议的主席。

参考链接:

[1]

[2]

-超过-

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

本文来自网络,若有侵权,请联系删除,作者:孕宝轩,如若转载,请注明出处