Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det är ganska galet hur matrismultiplikationen, som är en så enkel operation, kan ha så mycket djup och komplexitet när du försöker göra den extremt snabb.
Många av de mest anmärkningsvärda förbättringarna i Nvidias chip under de senaste generationerna är enbart för att påskynda matrismultiplikation.
I B200 har du till exempel:
- Tensor-kärnor (co-processorerna bara för matmuls). De kan göra större brickor än tidigare generationer.
- Tensor-minne, en ny cache bara för att lagra mellanliggande utdata från tensorkärnor.
- Tensor memory accelerator (TMA), maskinvara (introducerades i H100) bara för att flytta minne asynkront för tensorkärnor.
Och sedan får du mycket komplexitet från all programvara och abstraktioner som du behöver för att orkestrera all maskinvara effektivt.
Topp
Rankning
Favoriter

