🎯 Je viens de publier un nouveau préprint qui prouve le transfert LR sous μP. -> Le problème : Lors de l'entraînement de grands réseaux de neurones, l'une des questions les plus délicates est : quel taux d'apprentissage devrais-je utiliser ? [1/n]🧵 Lien :