fortemente endossado. Nossos modelos estão aprendendo lixo e acho que não é apenas um imposto de desempenho fixo - adiciona superficialidade, memorização indesejável e "singularidades pontiagudas" que provavelmente aumentam com a escala. Eu me pergunto como diferentes métodos de esparsidade contribuem para o problema.