RETRO (DeepMind, 2021) ist eine schöne Idee, die dringend einer Überarbeitung bedarf. die zentrale Innovation von RETRO besteht darin, dass ein kleines Modell entscheidet, welches Token als nächstes vorhergesagt werden soll, während das gesamte Wissen an einen großen Offline-Datenspeicher ausgelagert wird. das hat den zusätzlichen Vorteil, dass man Fakten auf modulare Weise einfügen und entfernen kann, indem man den Datenspeicher ändert, ohne das Modell neu trainieren zu müssen. passt wirklich gut zum Ideal eines kleinen Modells (Karpathys kognitiver Kern und so weiter). Man könnte auch weitere Werkzeuge hinzufügen, beginnend mit einem Sprachdatenspeicher, der das wichtigste Werkzeug ist. RETRO verdient viel mehr Anerkennung. Besonders jetzt, da kleine Modelle so viel besser geworden sind.
38,38K