Ok, para não ser um odiador, mas o papel de escala RL de US $ 4,2 milhões parece ser um pouco exagerado pelo que é? Um pouco pelo próprio jornal, mais ainda pelos poasters do twitter. De uma leitura inicial, parece mais um conjunto de ajustes no GRPO, exceto que desta vez ele é treinado em diferentes orçamentos de computação, mas - crucialmente - apenas em modelos relativamente pequenos (Llama 3 8B e Llama 4 Scout) e um conjunto de dados que é 100% questões matemáticas. A principal novidade é que eles encaixaram uma curva no gráfico de recompensa, o que é, uh, legal, eu acho? A cereja do bolo é o repositório de código, que é um arquivo centrado em 'from scipy.optimize import curve_fit' Eu sou totalmente a favor de uma pesquisa de RL mais baseada em princípios, mas você dificilmente pode proclamar leis de escala em um único ambiente, quando os envs de treinamento de RL podem ser indiscutivelmente mais diversificados do que os conjuntos de dados de pré-treinamento. Além disso, ainda tenho uma suspeita furtiva (e nenhum orçamento para verificar) de que RL em modelos enormes (>100B?) é uma fera qualitativamente diferente do que em modelos pequenos. A grande vantagem das leis de escala do LLM é que, para um determinado orçamento, você pode estimar alguns hiperparâmetros a priori, economizando na adivinhação de hiperparâmetros. Eu me esforço para encontrar qualquer insight análogo aqui. Mas ei, ele usou 400 mil horas de GPU.