🎯 Acabo de lanzar una nueva preimpresión que demuestra la transferencia LR bajo μP. -> El problema: Cuando se entrenan grandes redes neuronales, una de las preguntas más complicadas es: ¿qué tasa de aprendizaje debo usar? [1/n] 🧵 Enlace: