Tại sao Transformers không thể học phép nhân? Bài báo này phát hiện rằng việc huấn luyện thông thường không bao giờ xây dựng được các liên kết dài hạn của phép nhân. Vì vậy, bằng cách thêm một tổn thất phụ mới dự đoán "tổng chạy", nó cho phép mô hình học thành công phép nhân nhiều chữ số!