¿Por qué los transformadores no pueden aprender a multiplicar? Este artículo encontró que el entrenamiento simple nunca construye enlaces de multiplicaciones de largo alcance. Entonces, al agregar una nueva pérdida auxiliar que predice la "suma acumulada", ¡permite que el modelo aprenda con éxito la multiplicación de varios dígitos!