🎯 Har precis släppt ett nytt preprint som bevisar LR-överföring under μP. -> Problemet: När man tränar stora neurala nätverk är en av de knepigaste frågorna: vilken inlärningstakt ska jag använda? [1/n] 🧵 Länk: