Avez-vous des recommandations de textes qui introduisent les approches de la mémoire dans les modèles de transformateurs ? Cela devrait être de niveau introductif sans sacrifier la spécificité technique. Est-il utile d'en écrire un ?