Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Rosinality
sem efeitos secundários
Crie um par de perguntas e respostas a partir do corpus que maximize a variância de correção do raciocinador e deixe o raciocinador resolvê-lo. Este é exatamente um jogo que visa 50% de correção que Noam Brown mencionou ().


Noam Brown22/10/2025
Abaixo está uma análise aprofundada sobre por que o autojogo funciona para jogos de soma zero de dois jogadores (2p0s) como Go/Poker/Starcraft, mas é muito mais difícil de usar em domínios do "mundo real". Resumindo: o autojogo converge para minimax em jogos 2p0s, e minimax é realmente útil nesses jogos.
Todo jogo finito 2p0s tem um equilíbrio minimax, que é essencialmente uma estratégia imbatível em expectativa (assumindo que os jogadores alternem lados). Em pedra, papel e tesoura, por exemplo, o minimax é 1/3 em cada ação.
O minimax é o que queremos? Não necessariamente. Se você estiver jogando minimax em Pedra, Papel e Tesoura quando a maioria das estratégias dos oponentes é "sempre jogar Pedra", então você está claramente subótimo, mesmo que não esteja perdendo em expectativa. Isso é especialmente importante em um jogo como o poker, porque jogar minimax significa que você pode não ganhar tanto dinheiro de jogadores fracos quanto poderia se os explorasse ao máximo.
Mas a garantia de "você não perderá em expectativa" é realmente boa de se ter. E em jogos como Xadrez e Go, a diferença entre uma estratégia minimax e uma estratégia que explora otimamente a população de oponentes é negligenciável. Por essa razão, o minimax é tipicamente considerado o objetivo para um jogo de soma zero de dois jogadores. Mesmo no poker, a sabedoria convencional entre os melhores profissionais é jogar minimax (teoria dos jogos ótima) e só desviar se você perceber fraquezas claras no oponente.
O autojogo sólido, mesmo do zero, é garantido para convergir para um equilíbrio minimax em jogos finitos 2p0s. Isso é incrível! Ao simplesmente escalar memória e computação, e sem dados humanos, podemos convergir para uma estratégia que é imbatível em expectativa.
E quanto aos jogos não 2p0s? Infelizmente, o autojogo puro, sem dados humanos, não é mais garantido para convergir para uma estratégia útil. Isso pode ser claramente visto no Jogo do Ultimato. Alice deve oferecer a Bob $0-100. Bob então aceita ou rejeita. Se Bob aceitar, o dinheiro é dividido de acordo com a proposta de Alice. Se Bob rejeitar, ambos recebem $0.
A estratégia de equilíbrio (especificamente, equilíbrio perfeito de subjogos) é oferecer 1 centavo e para Bob aceitar. Mas no mundo real, as pessoas não são tão racionais. Se Alice tentasse essa estratégia com humanos reais, ela acabaria com muito pouco dinheiro. O autojogo se torna desvinculado do que nós, como humanos, consideramos útil.
Muitas pessoas propuseram jogos como "um professor LLM propõe problemas matemáticos difíceis, e um aluno LLM tenta resolvê-los" para alcançar o treinamento de autojogo, mas isso enfrenta problemas semelhantes ao jogo do Ultimato, onde o equilíbrio está desvinculado do que nós, como humanos, consideramos útil.
Qual deve ser a recompensa para o professor em tal jogo? Se for 2p0s, então o professor é recompensado se o aluno não conseguir resolver o problema, então o professor fará perguntas impossíveis. Ok, e se recompensarmos por o aluno ter uma taxa de sucesso de 50%? Então o professor poderia simplesmente jogar uma moeda e perguntar ao aluno se caiu Cara. Ou o professor poderia pedir ao aluno para decifrar uma mensagem através de uma busca exaustiva de chave. A modelagem de recompensas para alcançar o comportamento pretendido se torna um grande desafio. Isso não é um problema em jogos 2p0s.
Eu realmente acredito no autojogo. Ele fornece uma fonte infinita de treinamento e continuamente emparelha um agente com um par igualmente habilidoso. Também vimos funcionar em alguns ambientes complexos não 2p0s, como Diplomacia e Hanabi. Mas aplicá-lo fora dos jogos 2p0s é muito mais difícil do que era para Go, Poker, Dota e Starcraft.

10,24K
Top
Classificação
Favoritos



