強烈支持。我們的模型正在學習垃圾,我認為這不僅僅是一個平坦的性能稅——它增加了表面性、不良的記憶和可能隨著規模增加的“尖峰奇點”。我想知道不同的稀疏方法如何對這個問題產生影響。