É muito louco como a multiplicação de matrizes, que é uma operação tão simples, pode ter tanta profundidade e complexidade quando você tenta torná-la extremamente rápida. Muitas das melhorias mais notáveis nos chips da Nvidia nas últimas gerações são puramente para acelerar a multiplicação de matrizes. Por exemplo, no B200 você tem: - Núcleos tensores (os coprocessadores apenas para matmuls). Eles podem fazer ladrilhos maiores do que as gerações anteriores. - Memória tensorial, um novo cache apenas para armazenar saídas intermediárias de núcleos tensores. - Acelerador de memória tensorial (TMA), hardware (introduzido em H100) apenas para mover a memória de forma assíncrona para núcleos tensores. E então você obtém muita complexidade de todo o software e abstrações necessárias para orquestrar todo esse hardware com eficiência.