RETRO (DeepMind, 2021) é uma bela ideia, que precisa urgentemente ser revisitada A inovação central do Retro é fazer com que um pequeno modelo decida qual token prever em seguida, mas terceirize todo o conhecimento para um grande armazenamento de dados offline Isso tem o benefício adicional de permitir que você insira e remova fatos de forma modular, modificando o armazenamento de dados, sem treinar novamente o modelo se encaixa muito bem no ideal de um modelo minúsculo (o núcleo cognitivo de Karpathy, yada yada). você também pode adicionar mais ferramentas, apenas começando com um armazenamento de dados de idioma que é a ferramenta mais importante RETRO merece muito mais reconhecimento. especialmente agora que os modelos pequenos ficaram muito melhores
38,4K