Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je suis un peu surpris que personne n'ait encore créé de serveur MCP pour Dwarf Fortress qui pourrait permettre à un agent comme Codex ou Claude Code de contrôler efficacement le jeu et de surveiller l'état et les progrès.
Je ne l'ai jamais vraiment joué moi-même, je l'ai juste téléchargé et l'ai brièvement consulté il y a environ 10 ans, mais j'ai aimé en lire à son sujet.
On dirait que ce serait un très bon test pour un LLM de voir combien de temps il pourrait garder les nains en vie et prospères.
Parce que chaque partie finit par entraîner une catastrophe en cascade qui fait mourir tous les nains, il devrait y avoir un point d'arrêt naturel, ce qui en fait un bon candidat pour un benchmark. Du moins, c'est ma compréhension (le motto des joueurs est "Perdre est amusant").
Bien faire ce jeu dépendrait de l'exactitude de l'appel d'outils et de la cohérence dans les tâches longues, ainsi que de la capacité à surveiller et comprendre la dynamique d'un système complexe et à faire des interventions opportunes qui anticipent et contrent les problèmes.
Et parce que c'est natif terminal, il pourrait être transmis et traité efficacement en utilisant des jetons réguliers sans avoir besoin de traitement d'image multimodal, ce qui le rendrait beaucoup plus efficace que d'autres jeux.
De plus, vous savez que aucun laboratoire d'IA ne s'est encore entraîné pour cela (pour l'instant !), donc c'est exempt de "benchmaxxing."

3,8K
Meilleurs
Classement
Favoris