Por que é que os Transformers não conseguem aprender a multiplicação? Este artigo descobriu que o treino simples nunca constrói ligações de longo alcance de multiplicações. Assim, ao adicionar uma nova perda auxiliar que prevê a "soma acumulada", permite que o modelo aprenda com sucesso a multiplicação de múltiplos dígitos!