Я трохи здивований, що ніхто досі не створив MCP-сервер Dwarf Fortress, який міг би дозволити агенту на кшталт Codex або Claude Code ефективно контролювати гру та стежити за станом і прогресом. Я ніколи не грав у неї сам, просто завантажив її і коротко перевірив близько 10 років тому, але мені сподобалося читати про неї. Здається, що це було б дуже хорошим тестом LLM, щоб побачити, як довго він зможе підтримувати гномів живими та процвітаючими. Оскільки кожна гра врешті-решт призводить до якоїсь каскадної катастрофи, що призводить до загибелі всіх гномів, у неї має бути природна точка зупинки, що робить її хорошим кандидатом на орієнтир. Принаймні так я це розумію (девіз гравців – «Програвати – це весело»). Хороша робота з цими іграми залежатиме від точності виклику інструментів і стійкої узгодженості довгострокових завдань, а також здатності відстежувати та розуміти динаміку складної системи та робити своєчасні втручання, які передбачають і протидіють проблемам. А оскільки вона є рідною для терміналу, її можна ефективно передавати та обробляти за допомогою звичайних токенів без необхідності мультимодальної обробки зображень, що зробило б її набагато ефективнішою, ніж інші ігри. Крім того, ви знаєте, що жодна лабораторія штучного інтелекту не тренувалася для цього (поки що!), тому він не заплямований «benchmaxxing».
1,81K