🎯 Tocmai a lansat un nou preprint care dovedește transferul LR sub μP. -> Problema: Când antrenați rețele neuronale mari, una dintre cele mai dificile întrebări este: ce rată de învățare ar trebui să folosesc? [1/n] 🧵 Legătură: