Det är ganska galet hur matrismultiplikationen, som är en så enkel operation, kan ha så mycket djup och komplexitet när du försöker göra den extremt snabb. Många av de mest anmärkningsvärda förbättringarna i Nvidias chip under de senaste generationerna är enbart för att påskynda matrismultiplikation. I B200 har du till exempel: - Tensor-kärnor (co-processorerna bara för matmuls). De kan göra större brickor än tidigare generationer. - Tensor-minne, en ny cache bara för att lagra mellanliggande utdata från tensorkärnor. - Tensor memory accelerator (TMA), maskinvara (introducerades i H100) bara för att flytta minne asynkront för tensorkärnor. Och sedan får du mycket komplexitet från all programvara och abstraktioner som du behöver för att orkestrera all maskinvara effektivt.