RETRO (DeepMind, 2021) è un'idea bellissima, che ha davvero bisogno di essere rivisitata. L'innovazione centrale di RETRO è avere un piccolo modello che decide quale token prevedere successivamente, ma esternalizza tutta la conoscenza a un grande datastore offline. Questo ha il vantaggio aggiuntivo di permettere di inserire e rimuovere fatti in modo modulare modificando il datastore, senza dover riaddestrare il modello. Si adatta molto bene all'ideale di un modello ridotto (il nucleo cognitivo di Karpathy e così via). Potresti anche sovrapporre più strumenti, iniziando con un datastore linguistico che è lo strumento più importante. RETRO merita molta più riconoscenza. Soprattutto ora che i modelli piccoli sono migliorati così tanto.
38,39K