Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Noam Brown

Investigar el razonamiento @OpenAI | Co-creación de las IA de póker sobrehumano Libratus/Pluribus, CICERO Diplomacy AI y OpenAI o3 / o1 / 🍓 modelos de razonamiento

A continuación se muestra una inmersión profunda en por qué el juego automático funciona para juegos de suma cero (2p0) para dos jugadores como Go / Poker / Starcraft, pero es mucho más difícil de usar en dominios del "mundo real". Tl; DR: El juego propio converge a minimax en juegos de 2p0s, y minimax es realmente útil en esos juegos. Cada juego finito de 2p0s tiene un equilibrio minimax, que es esencialmente una estrategia imbatible en expectativa (suponiendo que los jugadores alternen bandos). En piedra, papel o tijera, por ejemplo, minimax es 1/3 en cada acción. ¿Es minimax lo que queremos? No necesariamente. Si estás jugando minimax en Rock Paper Scissors cuando la mayoría de las estrategias de los oponentes son "siempre lanzar piedra", entonces estás claramente subóptimo, aunque no estés perdiendo en expectativas. Esto es especialmente importante en un juego como el póquer porque jugar minimax significa que es posible que no ganes tanto dinero con jugadores débiles como si los explotaras al máximo. Pero la garantía de "no perderás en la expectativa" es realmente agradable de tener. Y en juegos como Chess and Go, la diferencia entre una estrategia minimax y una estrategia que explota de manera óptima a la población de oponentes es insignificante. Por esa razón, minimax generalmente se considera el objetivo de un juego de suma cero para dos jugadores. Incluso en el póquer, la sabiduría convencional entre los mejores profesionales es jugar minimax (teoría de juegos óptima) y luego solo desviarse si detectas debilidades claras en el oponente. El autojuego de sonido, incluso desde cero, está garantizado para converger a un equilibrio minimax en juegos finitos de 2p0s. ¡Eso es increíble! Simplemente escalando la memoria y la computación, y sin datos humanos, podemos converger en una estrategia que es imbatible en expectativas. ¿Qué pasa con los juegos que no son 2p0s? Lamentablemente, ya no se garantiza que el juego propio puro, sin datos humanos, converja en una estrategia útil. Esto se puede ver claramente en el Juego del Ultimátum. Alice debe ofrecerle a Bob $ 0-100. Bob luego acepta o rechaza. Si Bob acepta, el dinero se divide de acuerdo con la propuesta de Alice. Si Bob rechaza, ambos reciben $0. La estrategia de equilibrio (específicamente, equilibrio perfecto del subjuego) es ofrecer 1 centavo y que Bob acepte. Pero en el mundo real, la gente no es tan racional. Si Alice intentara esa estrategia con humanos reales, terminaría con muy poco dinero. El juego propio se libera de lo que nosotros, como humanos, encontramos útil. Mucha gente ha propuesto juegos como "un profesor de LLM propone problemas matemáticos difíciles, y un estudiante de LLM intenta resolverlos" para lograr el entrenamiento de autojuego, pero esto se topa con problemas similares al juego del Ultimátum, donde el equilibrio no está atado de lo que nosotros, como humanos, encontramos útil. ¿Cuál debería ser la recompensa para el maestro en un juego así? Si son 2p0s, entonces el maestro es recompensado si el estudiante no pudo resolver el problema, por lo que el maestro planteará problemas imposibles. Bien, ¿qué pasa si lo recompensamos por el estudiante que tiene una tasa de éxito del 50%? Luego, el maestro podría lanzar una moneda y preguntarle al estudiante si aterrizó Cara. O el profesor podría pedirle al estudiante que descifre un mensaje a través de una búsqueda exhaustiva de claves. La configuración de recompensas para lograr el comportamiento deseado se convierte en un gran desafío. Esto no es un problema en los juegos de 2p0s. Creo en el juego propio. Proporciona una fuente infinita de capacitación y empareja continuamente a un agente con un compañero igualmente capacitado. También lo hemos visto funcionar en algunos entornos complejos que no son 2p0s como Diplomacia y Hanabi. Pero aplicarlo fuera de los juegos 2p0s es mucho más difícil de lo que fue para Go, Poker, Dota y Starcraft.

Populares

Ranking

Favoritas