Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es ist ziemlich verrückt, wie die Matrixmultiplikation, die eine so einfache Operation ist, so viel Tiefe und Komplexität haben kann, wenn man versucht, sie extrem schnell zu machen.
Viele der bemerkenswertesten Verbesserungen in Nvidias Chips über die letzten Generationen dienen ausschließlich dazu, die Matrixmultiplikation zu beschleunigen.
Zum Beispiel im B200 haben Sie:
- Tensor-Kerne (die Co-Prozessoren nur für Matmuls). Sie können größere Kacheln als frühere Generationen verarbeiten.
- Tensor-Speicher, ein neuer Cache nur zum Speichern von Zwischenoutputs der Tensor-Kerne.
- Tensor-Speicherbeschleuniger (TMA), Hardware (eingeführt im H100), die nur für die asynchrone Speicherbewegung für Tensor-Kerne gedacht ist.
Und dann bekommt man viel Komplexität durch die gesamte Software und Abstraktionen, die man benötigt, um all diese Hardware effizient zu orchestrieren.
Top
Ranking
Favoriten

