Es ist ziemlich verrückt, wie die Matrixmultiplikation, die eine so einfache Operation ist, so viel Tiefe und Komplexität haben kann, wenn man versucht, sie extrem schnell zu machen. Viele der bemerkenswertesten Verbesserungen in Nvidias Chips über die letzten Generationen dienen ausschließlich dazu, die Matrixmultiplikation zu beschleunigen. Zum Beispiel im B200 haben Sie: - Tensor-Kerne (die Co-Prozessoren nur für Matmuls). Sie können größere Kacheln als frühere Generationen verarbeiten. - Tensor-Speicher, ein neuer Cache nur zum Speichern von Zwischenoutputs der Tensor-Kerne. - Tensor-Speicherbeschleuniger (TMA), Hardware (eingeführt im H100), die nur für die asynchrone Speicherbewegung für Tensor-Kerne gedacht ist. Und dann bekommt man viel Komplexität durch die gesamte Software und Abstraktionen, die man benötigt, um all diese Hardware effizient zu orchestrieren.