RETRO(DeepMind,2021)是一個美妙的想法,迫切需要重新審視 RETRO的核心創新是讓一個小模型決定下一個要預測的標記,但將所有知識外包給一個大型的離線數據存儲 這還有一個額外的好處,就是可以通過修改數據存儲以模塊化的方式插入和刪除事實,而無需重新訓練模型 這非常符合小模型的理想(Karpathy的認知核心等等)。你還可以層疊更多工具,首先從一個語言數據存儲開始,這是最重要的工具 RETRO值得更多的認可。特別是現在小模型已經變得如此出色。
38.39K