强烈支持。我们的模型正在学习垃圾,我认为这不仅仅是一个平坦的性能税——它增加了表面性、不良的记忆和可能随着规模增加的“尖峰奇点”。我想知道不同的稀疏方法如何对这个问题产生影响。