Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Investigar el razonamiento @OpenAI | Co-creación de las IA de póker sobrehumano Libratus/Pluribus, CICERO Diplomacy AI y OpenAI o3 / o1 / 🍓 modelos de razonamiento
A continuación, se presenta un análisis profundo de por qué el autojuego funciona para juegos de suma cero de dos jugadores (2p0s) como Go/Póker/Starcraft, pero es mucho más difícil de usar en dominios del "mundo real". Resumen: el autojuego converge a minimax en juegos 2p0s, y minimax es realmente útil en esos juegos.
Cada juego finito 2p0s tiene un equilibrio minimax, que es esencialmente una estrategia imbatible en expectativa (suponiendo que los jugadores alternen lados). En piedra, papel o tijera, por ejemplo, minimax es 1/3 en cada acción.
¿Es minimax lo que queremos? No necesariamente. Si estás jugando minimax en Piedra, Papel o Tijera cuando la mayoría de las estrategias de los oponentes son "siempre lanzar Piedra", entonces claramente estás en una posición subóptima, aunque no estés perdiendo en expectativa. Esto es especialmente importante en un juego como el póker porque jugar minimax significa que podrías no ganar tanto dinero de los jugadores débiles como podrías si los explotaras al máximo.
Pero la garantía de "no perderás en expectativa" es realmente agradable de tener. Y en juegos como el Ajedrez y Go, la diferencia entre una estrategia minimax y una estrategia que explota óptimamente a la población de oponentes es negligible. Por esa razón, minimax se considera típicamente el objetivo para un juego de suma cero de dos jugadores. Incluso en póker, la sabiduría convencional entre los mejores profesionales es jugar minimax (teoría de juegos óptima) y luego solo desviarse si detectas debilidades claras en el oponente.
El autojuego sólido, incluso desde cero, está garantizado para converger a un equilibrio minimax en juegos finitos 2p0s. ¡Eso es asombroso! Simplemente escalando la memoria y el cómputo, y sin datos humanos, podemos converger a una estrategia que es imbatible en expectativa.
¿Qué pasa con los juegos no 2p0s? Lamentablemente, el autojuego puro, sin datos humanos, ya no está garantizado para converger a una estrategia útil. Esto se puede ver claramente en el Juego del Ultimátum. Alice debe ofrecer a Bob $0-100. Bob luego acepta o rechaza. Si Bob acepta, el dinero se divide de acuerdo con la propuesta de Alice. Si Bob rechaza, ambos reciben $0.
La estrategia de equilibrio (específicamente, el equilibrio perfecto en subjuegos) es ofrecer 1 centavo y que Bob acepte. Pero en el mundo real, las personas no son tan racionales. Si Alice intentara esa estrategia con humanos reales, terminaría con muy poco dinero. El autojuego se desvincula de lo que nosotros, como humanos, consideramos útil.
Muchos han propuesto juegos como "un profesor LLM propone problemas matemáticos difíciles, y un estudiante LLM intenta resolverlos" para lograr un entrenamiento de autojuego, pero esto enfrenta problemas similares al juego del ultimátum donde el equilibrio está desvinculado de lo que nosotros, como humanos, consideramos útil.
¿Cuál debería ser la recompensa para el profesor en tal juego? Si es 2p0s, entonces el profesor es recompensado si el estudiante no pudo resolver el problema, por lo que el profesor planteará problemas imposibles. Bien, ¿qué pasa si lo recompensamos por tener una tasa de éxito del 50%? Entonces el profesor podría simplemente lanzar una moneda y preguntar al estudiante si cayó en cara. O el profesor podría pedir al estudiante que descifre un mensaje mediante una búsqueda exhaustiva de claves. La modelación de recompensas para lograr el comportamiento deseado se convierte en un gran desafío. Este no es un problema en juegos 2p0s.
Creo en el autojuego. Proporciona una fuente infinita de entrenamiento y empareja continuamente a un agente con un par de habilidades iguales. También hemos visto que funciona en algunos entornos complejos no 2p0s como Diplomacia y Hanabi. Pero aplicarlo fuera de los juegos 2p0s es mucho más difícil de lo que fue para Go, Póker, Dota y Starcraft.


Noam Brown21 oct 2025
El autojuego funciona tan bien en ajedrez, go y póker porque esos juegos son de dos jugadores y suma cero. Eso simplifica muchos problemas. El mundo real es más complicado, por lo que aún no hemos visto muchos éxitos del autojuego en los LLMs.
Por cierto, ¡@karpathy lo hizo genial y estoy mayormente de acuerdo con él!
277,4K
El autojuego funciona tan bien en ajedrez, go y póker porque esos juegos son de dos jugadores y suma cero. Eso simplifica muchos problemas. El mundo real es más complicado, por lo que aún no hemos visto muchos éxitos del autojuego en los LLMs.
Por cierto, ¡@karpathy lo hizo genial y estoy mayormente de acuerdo con él!

Dwarkesh Patel21 oct 2025
.@karpathy says that LLMs currently lack the cultural accumulation and self-play that propelled humans out of the savannah:
Culture: > “Why can’t an LLM write a book for the other LLMs? Why can’t other LLMs read this LLM’s book and be inspired by it, or shocked by it?”
Self play: > “It’s extremely powerful. Evolution has a lot of competition driving intelligence and evolution. AlphaGo is playing against itself and that’s how it learns to get really good at Go. There’s no equivalent of self-play in LLMs. Why can’t an LLM, for example, create a bunch of problems that another LLM is learning to solve? Then the LLM is always trying to serve more and more difficult problems.”
I asked Karpathy why LLMs still aren't yet able to build up culture the way humans do.
> “The dumber models remarkably resemble a kindergarten student. [The smartest models still feel like] elementary school students though. Somehow, we still haven’t graduated enough where [these models] can take over. My Claude Code or Codex, they still feel like this elementary-grade student. I know that they can take PhD quizzes, but they still cognitively feel like a kindergarten.”
> “I don’t think they can create culture because they’re still kids. They’re savant kids. They have perfect memory. They can convincingly create all kinds of slop that looks really good. But I still think they don’t really know what they’re doing. They don’t really have the cognition across all these little checkboxes that we still have to collect.”
320,87K
.@Stanford los cursos son de alta calidad, pero las políticas están definitivamente desactualizadas. He oído que hay un flagrante y desenfrenado plagio donde los estudiantes están introduciendo las preguntas directamente en ChatGPT durante los exámenes parciales, pero a los profesores no se les permite supervisar los exámenes debido al código de honor.
Los profesores quieren cambiar la política, pero la burocracia universitaria tiene que pasar por un proceso de varios años antes de que pueda cambiar.

Zara Zhang14 oct 2025
Los estudiantes de Harvard y Stanford me dicen que sus profesores no entienden la IA y que los cursos están desactualizados.
Si las escuelas de élite no pueden mantenerse al día, la carrera por los credenciales ha terminado. El autoaprendizaje es la única forma ahora.
214,15K
Parte superior
Clasificación
Favoritos
