RETRO (DeepMind, 2021) es una idea hermosa, que necesita ser revisitada con urgencia. La innovación central de RETRO es tener un modelo pequeño que decida qué token predecir a continuación, pero externalizar todo el conocimiento a un gran almacén de datos offline. Esto tiene el beneficio adicional de permitirte insertar y eliminar hechos de manera modular al modificar el almacén de datos, sin necesidad de reentrenar el modelo. Se ajusta muy bien al ideal de un modelo pequeño (el núcleo cognitivo de Karpathy, yada yada). También podrías añadir más herramientas, comenzando con un almacén de datos de lenguaje que es la herramienta más importante. RETRO merece mucho más reconocimiento. Especialmente ahora que los modelos pequeños han mejorado tanto.
38,39K