RETRO (DeepMind, 2021) est une idée magnifique, qui a vraiment besoin d'être revisitée. L'innovation centrale de RETRO est d'avoir un petit modèle qui décide quel token prédire ensuite, mais de confier tout le savoir à un grand magasin de données hors ligne. Cela a l'avantage supplémentaire de vous permettre d'insérer et de retirer des faits de manière modulaire en modifiant le magasin de données, sans avoir à réentraîner le modèle. Cela correspond vraiment à l'idéal d'un petit modèle (le cœur cognitif de Karpathy, etc.). Vous pourriez également ajouter plus d'outils, en commençant simplement par un magasin de données linguistiques qui est l'outil le plus important. RETRO mérite beaucoup plus de reconnaissance. Surtout maintenant que les petits modèles se sont beaucoup améliorés.
38,4K