🎯 刚刚发布了一篇新的预印本,证明了在μP下的LR转移。 -> 问题:在训练大型神经网络时,最棘手的问题之一是:我应该使用什么学习率? [1/n]🧵 链接: