fortemente apoiado. Os nossos modelos estão a aprender lixo e acho que não é apenas um imposto de desempenho plano – isso adiciona superficialidade, memorização indesejável e "singularidades espinhosas" que provavelmente aumentam com a escala. Pergunto-me como diferentes métodos de esparsidade contribuem para o problema.