🎯 Ho appena pubblicato un nuovo preprint che dimostra il trasferimento LR sotto μP. -> Il Problema: Quando si addestrano grandi reti neurali, una delle domande più difficili è: quale tasso di apprendimento dovrei usare? [1/n]🧵 Link: