AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中，Anthropic 旗下的 Claude3.7模型 “一骑绝尘”，力压群雄，荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5，而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”，表现令人大跌眼镜! 这究竟是怎么回事?

这场 AI “马力欧” 争霸赛，并非在古老的红白机上进行，而是在一个 “高科技” 模拟器中展开。研究人员专门打造了一个名为 GamingAgent 的框架，作为 AI 与游戏世界的 “桥梁”。在这个虚拟世界里， AI 化身 “马力欧”，手握 “游戏手柄”，接收来自系统的 “作战指令”: “前方有障碍!跳!”，“敌人来袭!躲!”，指令简洁明了，却也充满挑战。系统还会 “贴心” 地送上游戏截图，帮助 “AI 马力欧” “眼观六路，耳听八方”，更好地 “掌控” 战局。更酷的是， AI 竟然能 “现场编写” Python 代码，指挥 “马力欧” 做出各种 “骚操作”，上蹿下跳，躲避障碍，简直 “秀” 到飞起!

AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？-Mo 动态

然而，赛场上的 “战况” 却出人意料。那些 “身经百战” 、以 “推理能力” 著称的 AI 模型，比如 OpenAI 的 o1，竟然 “马失前蹄”，表现还不如一些 “非推理型” 选手! 这是为何? 原来， “推理大神” 也有 “致命弱点”—— “反应太慢”! 在《超级马力欧兄弟》这种 “分秒必争” 的实时游戏中， “推理模型” 需要花费数秒钟 “深思熟虑” 才能 “慢吞吞” 地做出决策，但 “战机稍纵即逝”，一秒钟的 “迟疑”，就可能导致 “马力欧” “命丧黄泉”! 看来，在瞬息万变的游戏世界里， “反应速度” 才是 “硬道理”!

尽管游戏早已成为 AI 竞技的 “重要舞台”，但也有专家对此 “另眼相看”。在他们看来，游戏世界毕竟是 “虚拟世界”，与 “真实世界” 相比，还是 “Too young， Too simple”! 游戏环境 “过于简单” 和 “抽象”， AI 可以从中 “无限量” 地 “刷经验值”，积累 “理论数据”，但 “纸上谈兵终觉浅”，这些 AI 模型的 “真实能力” 究竟如何，还有待 “实战检验”。 OpenAI 的研究科学家安德烈・卡帕西甚至发出了 “评估危机” 的 “灵魂拷问”，让人不禁 “陷入沉思”。

不过，质疑归质疑，围观 AI “花式玩转” 超级玛丽，依然是一场 “赏心悦目” 的 “技术秀”，它生动地展现了 AI 技术的 “日新月异”，也为我们打开了一扇 “窥探未来” 的 “窗口”。谁能想到，曾经只能在 “棋盘” 上 “运筹帷幄” 的 AI，如今也能在 “游戏世界” 里 “大显身手”? 或许在不久的将来， AI 真的能 “统治” 游戏界，甚至 “超越” 人类玩家，成为 “游戏界” 的 “真·王者”! 让我们拭目以待!

来源https://www.aibase.com/zh/