🧠 我们如何为大型语言模型(LLMs)配备记忆,使其能够不断学习新知识? 在我们与 @AIatMeta 合作的新论文中,我们展示了如何通过稀疏微调记忆层来实现针对性的更新,以便进行持续学习,同时对现有知识的干扰最小化。 虽然完全微调和 LoRA 在保留任务性能上会出现剧烈下降(📉-89% FT,-71% LoRA 在事实学习任务上),但记忆层在遗忘方面的表现要好得多,学习的量相同但遗忘率仅为 -11%。 🧵: