Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Pesquisando @OpenAI de raciocínio | Co-criou IAs de pôquer sobre-humanas Libratus/Pluribus, CICERO Diplomacy AI e modelos de raciocínio OpenAI o3 / o1 / 🍓
Abaixo está um mergulho profundo em por que o auto-jogo funciona para jogos de soma zero (2p0s) para dois jogadores, como Go / Poker / Starcraft, mas é muito mais difícil de usar em domínios do "mundo real". Tl; dr: o jogo próprio converge para o minimax em jogos 2p0s, e o minimax é realmente útil nesses jogos.
Todo jogo finito de 2p0s tem um equilíbrio minimax, que é essencialmente uma estratégia imbatível na expectativa (assumindo que os jogadores alternem os lados). Em pedra, papel, tesoura, por exemplo, minimax é 1/3 em cada ação.
Minimax é o que queremos? Não necessariamente. Se você está jogando minimax em Rock Paper Scissors quando as estratégias da maioria dos oponentes são "sempre jogue Rock", então você está claramente abaixo do ideal, mesmo que não esteja perdendo na expectativa. Isso é especialmente importante em um jogo como o pôquer, porque jogar minimax significa que você pode não ganhar tanto dinheiro com jogadores fracos quanto poderia se os explorasse ao máximo.
Mas a garantia de "você não vai perder na expectativa" é muito bom de se ter. E em jogos como Xadrez e Go, a diferença entre uma estratégia minimax e uma estratégia que explora de forma otimizada a população de oponentes é insignificante. Por esse motivo, o minimax é normalmente considerado o objetivo de um jogo de soma zero para dois jogadores. Mesmo no pôquer, a sabedoria convencional entre os melhores profissionais é jogar minimax (teoria do jogo ideal) e só se desviar se você detectar fraquezas claras no oponente.
O auto-jogo sólido, mesmo do zero, é garantido para convergir para um equilíbrio minimax em jogos finitos de 2p0s. Isso é incrível! Simplesmente dimensionando a memória e a computação, e sem dados humanos, podemos convergir para uma estratégia imbatível em expectativa.
E os jogos não-2p0s? Infelizmente, o puro jogo pessoal, sem dados humanos, não é mais garantido que convirja para uma estratégia útil. Isso pode ser visto claramente no Jogo do Ultimato. Alice deve oferecer a Bob $ 0-100. Bob então aceita ou rejeita. Se Bob aceitar, o dinheiro é dividido de acordo com a proposta de Alice. Se Bob rejeitar, ambos recebem $ 0.
A estratégia de equilíbrio (especificamente, equilíbrio perfeito do subjogo) é oferecer 1 centavo e para Bob aceitar. Mas no mundo real, as pessoas não são tão racionais. Se Alice tentasse essa estratégia com humanos reais, ela acabaria com muito pouco dinheiro. O auto-jogo se desvincula do que nós, como humanos, achamos útil.
Muitas pessoas propuseram jogos como "um professor de LLM propõe problemas difíceis de matemática e um aluno LLM tenta resolvê-los" para obter o treinamento de auto-jogo, mas isso se depara com problemas semelhantes aos do jogo Ultimatum, onde o equilíbrio é desvinculado do que nós, como humanos, achamos útil.
Qual deve ser a recompensa para o professor em tal jogo? Se for 2p0s, o professor é recompensado se o aluno não conseguir resolver o problema, então o professor apresentará problemas impossíveis. Ok, e se recompensarmos o aluno com uma taxa de sucesso de 50%? Então o professor poderia simplesmente jogar uma moeda e perguntar ao aluno se ela deu cara. Ou o professor pode pedir ao aluno para descriptografar uma mensagem por meio de uma pesquisa exaustiva de chaves. A modelagem de recompensas para alcançar o comportamento pretendido torna-se um grande desafio. Isso não é um problema em jogos 2p0s.
Eu acredito em auto-jogo. Ele fornece uma fonte infinita de treinamento e combina continuamente um agente com um colega igualmente habilidoso. Também vimos isso funcionar em algumas configurações complexas não 2p0s, como Diplomacia e Hanabi. Mas aplicá-lo fora dos jogos 2p0s é muito mais difícil do que era para Go, Poker, Dota e Starcraft.


Noam Brown21 de out. de 2025
O jogo próprio funciona tão bem no xadrez, go e pôquer porque esses jogos são de soma zero para dois jogadores. Isso simplifica muitos problemas. O mundo real é mais confuso, e é por isso que ainda não vimos muitos sucessos do auto-jogo em LLMs.
A propósito, @karpathy me saí muito bem e eu concordo principalmente com ele!
277,43K
O jogo próprio funciona tão bem no xadrez, go e pôquer porque esses jogos são de soma zero para dois jogadores. Isso simplifica muitos problemas. O mundo real é mais confuso, e é por isso que ainda não vimos muitos sucessos do auto-jogo em LLMs.
A propósito, @karpathy me saí muito bem e eu concordo principalmente com ele!

Dwarkesh Patel21 de out. de 2025
.@karpathy diz que os LLMs atualmente carecem do acúmulo cultural e do auto-jogo que impulsionaram os humanos para fora da savana:
Cultura: > "Por que um LLM não pode escrever um livro para os outros LLMs? Por que outros LLMs não podem ler o livro deste LLM e se inspirar ou ficar chocados com ele?"
Auto-jogo: > "É extremamente poderoso. A evolução tem muita competição impulsionando a inteligência e a evolução. O AlphaGo está jogando contra si mesmo e é assim que ele aprende a ficar realmente bom em Go. Não há equivalente a auto-jogo em LLMs. Por que um LLM, por exemplo, não pode criar um monte de problemas que outro LLM está aprendendo a resolver? Então o LLM está sempre tentando atender a problemas cada vez mais difíceis.
Perguntei a Karpathy por que os LLMs ainda não são capazes de construir a cultura da maneira que os humanos fazem.
> "Os modelos mais burros se assemelham notavelmente a um aluno do jardim de infância.  [Os modelos mais inteligentes ainda parecem De alguma forma, ainda não nos formamos o suficiente para que [esses modelos] possam assumir o controle. Meu Claude Code ou Codex, eles ainda se sentem como esse aluno do ensino fundamental. Eu sei que eles podem fazer testes de doutorado, mas ainda se sentem cognitivamente como um jardim de infância.
> "Eu não acho que eles possam criar cultura porque ainda são crianças. Eles são crianças savant. Eles têm memória perfeita. Eles podem criar de forma convincente todos os tipos de lixo que parecem muito bons. Mas ainda acho que eles realmente não sabem o que estão fazendo. Eles realmente não têm a cognição em todas essas pequenas caixas de seleção que ainda temos que coletar.
320,92K
.@Stanford cursos são de alta qualidade, mas as políticas estão definitivamente desatualizadas. Estou ouvindo falar de trapaças desenfreadas acontecendo onde os alunos estão inserindo as perguntas diretamente no ChatGPT durante as provas intermediárias, mas os professores não têm permissão para supervisionar os exames devido ao código de honra.
Os professores querem mudar a política, mas a burocracia universitária precisa passar por um processo de vários anos antes de poder mudar.

Zara Zhang14 de out. de 2025
Os alunos de Harvard e Stanford me dizem que seus professores não entendem de IA e os cursos estão desatualizados. 
Se as escolas de elite não conseguirem acompanhar, a corrida armamentista de credenciais acabou. A autoaprendizagem é o único caminho agora.
214,17K
Melhores
Classificação
Favoritos
