fortement approuvé. Nos modèles apprennent des choses inutiles et je pense que ce n'est pas seulement une taxe de performance plate – cela ajoute de la superficialité, une mémorisation indésirable et des "singularités pointues" qui augmentent probablement avec l'échelle. Je me demande comment différentes méthodes de sparsité contribuent au problème.