🧠 我們如何為大型語言模型(LLMs)配備記憶,使其能夠不斷學習新事物? 在我們與 @AIatMeta 的新論文中,我們展示了如何稀疏微調記憶層,使其能夠針對性地更新以進行持續學習,並且對現有知識的干擾最小。 雖然完全微調和 LoRA 在保留的任務性能上會出現劇烈下降(📉-89% FT,-71% LoRA 在事實學習任務上),但記憶層以更少的遺忘學習到相同的量(-11%)。 🧵: