Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Investigar el razonamiento @OpenAI | Co-creación de las IA de póker sobrehumano Libratus/Pluribus, CICERO Diplomacy AI y OpenAI o3 / o1 / 🍓 modelos de razonamiento
A continuación se muestra una inmersión profunda en por qué el juego automático funciona para juegos de suma cero (2p0) para dos jugadores como Go / Poker / Starcraft, pero es mucho más difícil de usar en dominios del "mundo real". Tl; DR: El juego propio converge a minimax en juegos de 2p0s, y minimax es realmente útil en esos juegos.
Cada juego finito de 2p0s tiene un equilibrio minimax, que es esencialmente una estrategia imbatible en expectativa (suponiendo que los jugadores alternen bandos). En piedra, papel o tijera, por ejemplo, minimax es 1/3 en cada acción.
¿Es minimax lo que queremos? No necesariamente. Si estás jugando minimax en Rock Paper Scissors cuando la mayoría de las estrategias de los oponentes son "siempre lanzar piedra", entonces estás claramente subóptimo, aunque no estés perdiendo en expectativas. Esto es especialmente importante en un juego como el póquer porque jugar minimax significa que es posible que no ganes tanto dinero con jugadores débiles como si los explotaras al máximo.
Pero la garantía de "no perderás en la expectativa" es realmente agradable de tener. Y en juegos como Chess and Go, la diferencia entre una estrategia minimax y una estrategia que explota de manera óptima a la población de oponentes es insignificante. Por esa razón, minimax generalmente se considera el objetivo de un juego de suma cero para dos jugadores. Incluso en el póquer, la sabiduría convencional entre los mejores profesionales es jugar minimax (teoría de juegos óptima) y luego solo desviarse si detectas debilidades claras en el oponente.
El autojuego de sonido, incluso desde cero, está garantizado para converger a un equilibrio minimax en juegos finitos de 2p0s. ¡Eso es increíble! Simplemente escalando la memoria y la computación, y sin datos humanos, podemos converger en una estrategia que es imbatible en expectativas.
¿Qué pasa con los juegos que no son 2p0s? Lamentablemente, ya no se garantiza que el juego propio puro, sin datos humanos, converja en una estrategia útil. Esto se puede ver claramente en el Juego del Ultimátum. Alice debe ofrecerle a Bob $ 0-100. Bob luego acepta o rechaza. Si Bob acepta, el dinero se divide de acuerdo con la propuesta de Alice. Si Bob rechaza, ambos reciben $0.
La estrategia de equilibrio (específicamente, equilibrio perfecto del subjuego) es ofrecer 1 centavo y que Bob acepte. Pero en el mundo real, la gente no es tan racional. Si Alice intentara esa estrategia con humanos reales, terminaría con muy poco dinero. El juego propio se libera de lo que nosotros, como humanos, encontramos útil.
Mucha gente ha propuesto juegos como "un profesor de LLM propone problemas matemáticos difíciles, y un estudiante de LLM intenta resolverlos" para lograr el entrenamiento de autojuego, pero esto se topa con problemas similares al juego del Ultimátum, donde el equilibrio no está atado de lo que nosotros, como humanos, encontramos útil.
¿Cuál debería ser la recompensa para el maestro en un juego así? Si son 2p0s, entonces el maestro es recompensado si el estudiante no pudo resolver el problema, por lo que el maestro planteará problemas imposibles. Bien, ¿qué pasa si lo recompensamos por el estudiante que tiene una tasa de éxito del 50%? Luego, el maestro podría lanzar una moneda y preguntarle al estudiante si aterrizó Cara. O el profesor podría pedirle al estudiante que descifre un mensaje a través de una búsqueda exhaustiva de claves. La configuración de recompensas para lograr el comportamiento deseado se convierte en un gran desafío. Esto no es un problema en los juegos de 2p0s.
Creo en el juego propio. Proporciona una fuente infinita de capacitación y empareja continuamente a un agente con un compañero igualmente capacitado. También lo hemos visto funcionar en algunos entornos complejos que no son 2p0s como Diplomacia y Hanabi. Pero aplicarlo fuera de los juegos 2p0s es mucho más difícil de lo que fue para Go, Poker, Dota y Starcraft.


Noam Brownhace 9 horas
El juego propio funciona muy bien en ajedrez, go y póquer porque esos juegos son de suma cero para dos jugadores. Eso simplifica muchos problemas. El mundo real es más desordenado, por lo que aún no hemos visto muchos éxitos del juego propio en LLM.
Por cierto, @karpathy hizo muy bien y en su mayoría estoy de acuerdo con él.
74.52K
El juego propio funciona muy bien en ajedrez, go y póquer porque esos juegos son de suma cero para dos jugadores. Eso simplifica muchos problemas. El mundo real es más desordenado, por lo que aún no hemos visto muchos éxitos del juego propio en LLM.
Por cierto, @karpathy hizo muy bien y en su mayoría estoy de acuerdo con él.

Dwarkesh Patel21 oct, 02:03
.@karpathy dice que los LLM actualmente carecen de la acumulación cultural y el juego propio que impulsaron a los humanos fuera de la sabana:
Cultura: > "¿Por qué un LLM no puede escribir un libro para los otros LLM? ¿Por qué otros LLM no pueden leer este libro de LLM y sentirse inspirados por él, o escandalizados por él?"
Juego propio: > "Es extremadamente poderoso. La evolución tiene mucha competencia impulsando la inteligencia y la evolución. AlphaGo está jugando contra sí mismo y así es como aprende a ser realmente bueno en Go. No hay equivalente al autojuego en los LLM. ¿Por qué un LLM, por ejemplo, no puede crear un montón de problemas que otro LLM está aprendiendo a resolver? Luego, el LLM siempre está tratando de atender problemas cada vez más difíciles".
Le pregunté a Karpathy por qué los LLM aún no son capaces de construir la cultura de la manera en que lo hacen los humanos.
> "Los modelos más tontos se parecen notablemente a un estudiante de jardín de infantes. Sin embargo, [los modelos más inteligentes todavía se sienten como] estudiantes de primaria. De alguna manera, todavía no nos hemos graduado lo suficiente como para que [estos modelos] puedan tomar el control. Mi Código Claude o Codex, todavía se sienten como este estudiante de primaria. Sé que pueden tomar exámenes de doctorado, pero cognitivamente todavía se sienten como un jardín de infantes".
> "No creo que puedan crear cultura porque todavía son niños. Son niños sabios. Tienen una memoria perfecta. Pueden crear de manera convincente todo tipo de lodo que se ve realmente bien. Pero sigo pensando que realmente no saben lo que están haciendo. Realmente no tienen la cognición en todas estas pequeñas casillas de verificación que todavía tenemos que recopilar".
137.91K
.@Stanford cursos son de alta calidad, pero las políticas definitivamente están desactualizadas. Estoy escuchando que se están produciendo trampas desenfrenadas y desenfrenadas en las que los estudiantes están conectando las preguntas directamente a ChatGPT durante los exámenes parciales, pero a los profesores no se les permite supervisar los exámenes debido al código de honor.
Los profesores quieren cambiar la política, pero la burocracia universitaria tiene que pasar por un proceso de varios años antes de que pueda cambiar.

Zara Zhang14 oct, 23:06
Los estudiantes de Harvard y Stanford me dicen que sus profesores no entienden la IA y que los cursos están desactualizados.
Si las escuelas de élite no pueden mantenerse al día, la carrera armamentista de credenciales ha terminado. El autoaprendizaje es la única forma ahora.
170.33K
Populares
Ranking
Favoritas