我有点惊讶的是,至今还没有人制作出一个《矮人要塞》的MCP服务器,能够让像Codex或Claude Code这样的代理高效地控制游戏并监控状态和进展。 我自己从来没有真正玩过,只是在大约10年前下载过并简单查看了一下,但我喜欢阅读关于它的内容。 这感觉像是一个非常好的大型语言模型(LLM)测试,看看它能让矮人们活得多长久并繁荣发展。 因为每个游戏最终都会导致某种级联灾难,导致所有矮人死亡,所以应该有一个自然的停止点,这使得它成为一个很好的基准候选者。至少这是我对它的理解(玩家的座右铭是“失败是有趣的”)。 在这个游戏中做得好将依赖于工具调用的准确性和持续的长任务一致性,以及监控和理解复杂系统动态的能力,并及时进行干预以预见和应对问题。 而且因为它是终端原生的,可以使用常规令牌高效传输和处理,而不需要多模态图像处理,这使得它比其他游戏更高效。 再加上你知道没有AI实验室为此进行过训练(还没有!),所以它没有受到“基准最大化”的污染。
2.07K