RETRO (DeepMind, 2021) — это прекрасная идея, которая нуждается в пересмотре. Центральная инновация RETRO заключается в том, чтобы маленькая модель решала, какой токен предсказать следующим, но вся информация хранится в большом оффлайн хранилище данных. Это имеет дополнительное преимущество, позволяя вам вставлять и удалять факты модульным образом, изменяя хранилище данных, без повторной тренировки модели. Это действительно хорошо соответствует идеалу крошечной модели (когнитивное ядро Карпаты и так далее). Вы также можете добавить больше инструментов, начиная с языкового хранилища данных, которое является самым важным инструментом. RETRO заслуживает гораздо большего признания. Особенно сейчас, когда маленькие модели стали намного лучше.
38,4K