Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
É muito louco como a multiplicação de matrizes, que é uma operação tão simples, pode ter tanta profundidade e complexidade quando você tenta torná-la extremamente rápida.
Muitas das melhorias mais notáveis nos chips da Nvidia nas últimas gerações são puramente para acelerar a multiplicação de matrizes.
Por exemplo, no B200 você tem:
- Núcleos tensores (os coprocessadores apenas para matmuls). Eles podem fazer ladrilhos maiores do que as gerações anteriores.
- Memória tensorial, um novo cache apenas para armazenar saídas intermediárias de núcleos tensores.
- Acelerador de memória tensorial (TMA), hardware (introduzido em H100) apenas para mover a memória de forma assíncrona para núcleos tensores.
E então você obtém muita complexidade de todo o software e abstrações necessárias para orquestrar todo esse hardware com eficiência.
Melhores
Classificação
Favoritos

