Dlaczego transformery nie potrafią uczyć się mnożenia? W pracy tej stwierdzono, że zwykłe szkolenie nigdy nie buduje długozasięgowych powiązań mnożenia. Dodając nową pomocniczą stratę, która przewiduje „bieżącą sumę”, model jest w stanie skutecznie nauczyć się mnożenia wielocyfrowego!