OpenAI : lance un navigateur
Anthropic : publie un article de blog
Deepmind : résout les équations de Navier-Stokes
Meta : ...merde, faisons un licenciement
Ok, je ne veux pas être un hater, mais le document sur le scaling RL à 4,2 millions de dollars semble un peu trop hypé par rapport à ce qu'il est ? Un peu par le document lui-même, mais surtout par les posteurs sur Twitter.
D'après une première lecture, il semble que ce soit encore un ensemble d'ajustements à GRPO, sauf que cette fois, il est entraîné sur différents budgets de calcul, mais - de manière cruciale - uniquement sur des modèles relativement petits (Llama 3 8B et Llama 4 Scout), et un ensemble de données qui ne contient que des questions de mathématiques.
La principale nouveauté est qu'ils ont ajusté une courbe au graphique de récompense, ce qui est, euh, cool je suppose ?
La cerise sur le gâteau est le dépôt de code qui est un fichier centré autour de `from scipy.optimize import curve_fit`
Je suis tout à fait pour une recherche RL plus principielle, mais on ne peut guère proclamer des lois de scaling dans un seul cadre, lorsque les environnements d'entraînement RL peuvent être plus diversifiés que les ensembles de données de pré-entraînement. De plus, j'ai toujours un soupçon (et pas de budget pour vérifier) que le RL sur de grands modèles (>100B ?) est une bête qualitativement différente de celle sur des modèles plus petits.
La grande chose à propos des lois de scaling des LLM est que pour un budget donné, vous pouvez estimer certains hyperparamètres a priori, ce qui permet d'économiser sur les conjectures d'hyperparamètres. J'ai du mal à trouver des insights analogues ici.
Mais bon, cela a utilisé 400k heures GPU.