為什麼變壓器無法學習乘法? 這篇論文發現,普通的訓練從未建立起乘法的長期聯繫。 因此,通過添加一個新的輔助損失來預測“運行總和”,使模型能夠成功學習多位數乘法!