Loja DApp | Hub Web3 para eventos e jogos

O que posso fazer com o Discover

Tópicos populares

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,06%

Boopa+8,34%

PORK+7,1%

Dwarkesh Patel

Dwarkesh PatelHá 17 horas

Amanhã

911,92K

Dwarkesh Patel19/11, 01:52

"O nosso quadro de taxa de passe também nos dá boas intuições sobre por que o auto-jogo tem sido tão produtivo na história do RL. Se você está competindo contra um jogador que é quase tão bom quanto você, você está equilibrando em torno de uma taxa de passe de 50%, o que maximiza os bits que você obtém de uma variável binária aleatória."

Dwarkesh Patel18/11, 01:09

Novo post no blog. Recentemente, as pessoas têm falado sobre como leva muito mais poder computacional para obter uma única amostra em RL do que em pré-treinamento. Mas isso é apenas metade do problema. Em RL, essa amostra cara também costuma fornecer muito menos bits. E isso tem implicações para a forma como o RLVR irá escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado por currículos são tão úteis para RL, por que os modelos RLed são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem de diferente. Link abaixo.

35,13K

Dwarkesh Patel19/11, 00:49

Como contabilizamos a extrema irregularidade induzida pelo RLVR? Como é possível que tenhamos modelos que são de classe mundial em competições de programação, mas ao mesmo tempo deixam bugs e dívidas técnicas extremamente previsíveis em todo o código?

Dwarkesh Patel18/11, 01:09

32,91K

Top

Classificação

Favoritos