Perché i Transformers non possono imparare la moltiplicazione? Questo documento ha scoperto che un semplice addestramento non costruisce mai collegamenti a lungo raggio delle moltiplicazioni. Quindi, aggiungendo una nuova perdita ausiliaria che prevede la "somma cumulativa", consente al modello di apprendere con successo la moltiplicazione a più cifre!