apoyado firmemente. Nuestros modelos están aprendiendo basura y creo que no es solo un impuesto de rendimiento plano: añade superficialidad, memorización indeseable y "singularidades espinosas" que probablemente aumentan con la escala. Me pregunto cómo diferentes métodos de esparcimiento contribuyen al problema.