🎯 Gerade ein neues Preprint veröffentlicht, das den LR-Transfer unter μP beweist. -> Das Problem: Wenn man große neuronale Netzwerke trainiert, ist eine der kniffligsten Fragen: Welche Lernrate sollte ich verwenden? [1/n]🧵 Link: