fortemente sostenuto. I nostri modelli stanno apprendendo spazzatura e penso che non si tratti solo di una tassa sulle prestazioni piatta – aggiunge superficialità, memorizzazione indesiderata e "singolarità spigolose" che probabilmente aumentano con la scala. Mi chiedo come i diversi metodi di sparsità contribuiscano al problema.