RETRO (DeepMind, 2021) is een prachtig idee, dat dringend herziening nodig heeft. de centrale innovatie van retro is dat een klein model beslist welke token als volgende te voorspellen, maar alle kennis uitbesteedt aan een grote offline datastore. dit heeft het extra voordeel dat je feiten op een modulaire manier kunt invoegen en verwijderen door de datastore aan te passen, zonder het model opnieuw te trainen. past echt goed bij het ideaal van een klein model (karpathy’s cognitieve kern yada yada). je zou ook meer tools kunnen toevoegen, te beginnen met een taal datastore die het Belangrijkste hulpmiddel is. RETRO verdient veel meer erkenning. vooral nu kleine modellen zoveel beter zijn geworden.
38,39K