为什么变压器无法学习乘法? 这篇论文发现,普通训练从未建立起乘法的长距离链接。 因此,通过添加一个新的辅助损失来预测“运行总和”,使得模型能够成功学习多位数乘法!