"O nosso quadro de taxa de passe também nos dá boas intuições sobre por que o auto-jogo tem sido tão produtivo na história do RL. Se você está competindo contra um jogador que é quase tão bom quanto você, você está equilibrando em torno de uma taxa de passe de 50%, o que maximiza os bits que você obtém de uma variável binária aleatória."
Novo post no blog. Recentemente, as pessoas têm falado sobre como leva muito mais poder computacional para obter uma única amostra em RL do que em pré-treinamento.
Mas isso é apenas metade do problema.
Em RL, essa amostra cara também costuma fornecer muito menos bits.
E isso tem implicações para a forma como o RLVR irá escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado por currículos são tão úteis para RL, por que os modelos RLed são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem de diferente.
Link abaixo.
Como contabilizamos a extrema irregularidade induzida pelo RLVR?
Como é possível que tenhamos modelos que são de classe mundial em competições de programação, mas ao mesmo tempo deixam bugs e dívidas técnicas extremamente previsíveis em todo o código?
Novo post no blog. Recentemente, as pessoas têm falado sobre como leva muito mais poder computacional para obter uma única amostra em RL do que em pré-treinamento.
Mas isso é apenas metade do problema.
Em RL, essa amostra cara também costuma fornecer muito menos bits.
E isso tem implicações para a forma como o RLVR irá escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado por currículos são tão úteis para RL, por que os modelos RLed são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem de diferente.
Link abaixo.