RETRO(DeepMind,2021)是一个美妙的想法,迫切需要重新审视。 RETRO的核心创新是让一个小模型决定下一个要预测的标记,但将所有知识外包给一个大型离线数据存储。 这还有一个额外的好处,就是可以通过修改数据存储以模块化的方式插入和删除事实,而无需重新训练模型。 这非常符合小模型的理想(Karpathy的认知核心等等)。你还可以叠加更多工具,首先从一个语言数据存储开始,这就是最重要的工具。 RETRO值得更多的认可。尤其是现在小模型已经变得如此优秀。
38.25K