矩陣乘法這個如此簡單的操作,竟然可以在你試圖讓它變得極快時,展現出如此深奧和複雜的特性,真是相當驚人。 在過去幾代中,Nvidia 的晶片在矩陣乘法加速方面的許多顯著改進,都是純粹為了加速矩陣乘法。 例如在 B200 中,你有: - 張量核心(專門用於矩陣乘法的協處理器)。它們可以處理比前幾代更大的區塊。 - 張量記憶體,一種新的快取,用於存儲張量核心的中間輸出。 - 張量記憶體加速器(TMA),硬體(在 H100 中引入)專門用於為張量核心異步移動記憶體。 然後,你會從所有需要有效協調這些硬體的軟體和抽象中獲得大量的複雜性。