🎯 剛剛發布了一篇新的預印本,證明了在 μP 下的 LR 轉移。 -> 問題:在訓練大型神經網絡時,最棘手的問題之一是:我應該使用什麼學習率? [1/n]🧵 鏈接: