voici quelques informations gratuites : si nous faisons du RL trop longtemps après le pré-entraînement, nous allons sûrement écraser les paramètres et commencer à oublier des choses. dans l'article original de instructGPT, leur meilleur modèle mélangeait RLHF avec des gradients de pré-entraînement pour éviter exactement ce problème de dérive du modèle. pourtant, personne ne fait cela maintenant. bien sûr, c'est une instanciation particulière (mélange de gradients) d'une idée plus large (éviter l'oubli), mais cela semble être une ligne de pensée grandement négligée alors que nous faisons de plus en plus d'étapes de RL. par exemple, voir le récent article ProRL. ils font maintenant plus de 1000 étapes de GRPO avec un taux d'apprentissage non trivial et aucune pénalité pour s'écarter du modèle original. les circuits construits à l'intérieur du modèle pendant le pré-entraînement commencent sûrement à se dégrader. et sinon, ils le feront après 10k ou 100k étapes de RL. je soupçonne que cette idée reviendra éventuellement ; ils le font probablement déjà dans les grands laboratoires.
55,55K