Por que os transformadores não podem aprender a multiplicação? Este artigo descobriu que o treinamento simples nunca constrói elos de multiplicações de longo alcance. Portanto, ao adicionar uma nova perda auxiliar que prevê a "soma em execução", ele permite que o modelo aprenda com sucesso a multiplicação de vários dígitos!