Sono un po' sorpreso che nessuno abbia ancora creato un server MCP per Dwarf Fortress che possa consentire a un agente come Codex o Claude Code di controllare il gioco in modo efficiente e monitorare lo stato e i progressi. Non l'ho mai giocato davvero, l'ho solo scaricato e l'ho controllato brevemente circa 10 anni fa, ma mi è piaciuto leggere a riguardo. Sembra che sarebbe un ottimo test per un LLM vedere per quanto tempo potrebbe mantenere i nani vivi e prosperi. Poiché ogni gioco alla fine porta a qualche catastrofe a cascata che causa la morte di tutti i nani, dovrebbe esserci un punto di arresto naturale, il che lo rende un buon candidato per un benchmark. Almeno questa è la mia comprensione (il motto dei giocatori è "Perdere è divertente"). Fare un buon lavoro con questo gioco dipenderebbe dall'accuratezza nella chiamata degli strumenti e dalla coerenza sostenuta nei compiti a lungo termine, oltre alla capacità di monitorare e comprendere le dinamiche di un sistema complesso e fare interventi tempestivi che anticipano e contrastano i problemi. E poiché è nativo per terminale, potrebbe essere trasmesso e elaborato in modo efficiente utilizzando token regolari senza necessità di elaborazione di immagini multimodali, il che lo renderebbe molto più efficiente rispetto ad altri giochi. Inoltre, sai che nessun laboratorio di intelligenza artificiale si è ancora addestrato per questo (ancora!), quindi è incontaminato da "benchmaxxing."
1,81K