Ok, não quero ser um hater, mas o artigo sobre escalonamento RL de $4,2M parece estar um pouco superestimado para o que é? Um pouco pelo próprio artigo, mais ainda pelos postadores do Twitter.
A partir de uma leitura inicial, parece mais um conjunto de ajustes ao GRPO, exceto que desta vez é treinado em orçamentos de computação diferentes, mas - crucialmente - apenas em modelos relativamente pequenos (Llama 3 8B e Llama 4 Scout), e em um conjunto de dados que é 100% questões de matemática.
A principal novidade é que eles ajustaram uma curva ao gráfico de recompensas, o que é, uh, legal, eu acho?
A cereja no topo é o repositório de código, que é um arquivo centrado em `from scipy.optimize import curve_fit`
Estou totalmente a favor de mais pesquisa em RL com princípios, mas você dificilmente pode proclamar leis de escalonamento em um único cenário, quando os ambientes de treinamento de RL podem ser, argumentavelmente, mais diversos do que os conjuntos de dados de pré-treinamento. Além disso, ainda tenho uma suspeita (e nenhum orçamento para verificar) de que RL em modelos enormes (>100B?) é uma besta qualitativamente diferente do que em modelos pequenos.
A grande coisa sobre as leis de escalonamento de LLM é que, para um determinado orçamento, você pode estimar alguns hiperparâmetros a priori, economizando na adivinhação de hiperparâmetros. Eu tenho dificuldade em encontrar qualquer insight análogo aqui.
Mas ei, usou 400k horas de GPU.