Ik ben een beetje verrast dat nog niemand een Dwarf Fortress MCP-server heeft gemaakt die een agent zoals Codex of Claude Code in staat zou stellen om het spel efficiënt te besturen en de staat en voortgang te monitoren. Ik heb het zelf nooit echt gespeeld, ik heb het gewoon gedownload en het ongeveer 10 jaar geleden kort bekeken, maar ik vond het leuk om erover te lezen. Het lijkt erop dat het een zeer goede test zou zijn voor een LLM om te zien hoe lang het de dwergen in leven en bloei kan houden. Omdat elk spel uiteindelijk resulteert in een of andere kettingcatastrofe die ervoor zorgt dat alle dwergen sterven, zou er een natuurlijk stoppunt moeten zijn, wat het een goede benchmark-kandidaat maakt. Tenminste, dat is mijn begrip ervan (de motto van spelers is "Verliezen is leuk"). Een goede prestatie in dit spel zou afhankelijk zijn van de nauwkeurigheid van het aanroepen van tools en de aanhoudende samenhang van lange taken, plus het vermogen om de dynamiek van een complex systeem te monitoren en te begrijpen en tijdig in te grijpen om problemen te anticiperen en tegen te gaan. En omdat het terminal native is, kan het efficiënt worden verzonden en verwerkt met behulp van reguliere tokens zonder dat multi-modale beeldverwerking nodig is, wat het veel efficiënter zou maken dan andere spellen. Bovendien weet je dat geen enkele AI-laboratoria hierop heeft getraind (nog niet!), dus het is niet aangetast door "benchmaxxing."
3,8K