🎯 Щойно вийшов новий препринт, який доводить передачу LR під μP. -> Проблема: при навчанні великих нейронних мереж одне з найскладніших питань полягає в наступному: яку швидкість навчання я повинен використовувати? [1/п] 🧵 Посилання: