Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sungguh liar bagaimana perkalian matriks, yang merupakan operasi yang sangat sederhana, dapat memiliki begitu banyak kedalaman dan kompleksitas ketika Anda mencoba membuatnya sangat cepat.
Banyak peningkatan yang paling mencolok dalam chip Nvidia selama beberapa generasi terakhir murni untuk mempercepat perkalian matriks.
Misalnya di B200 Anda memiliki:
- Inti tensor (ko-prosesor hanya untuk matmul). Mereka dapat membuat ubin yang lebih besar dari generasi sebelumnya.
- Memori tensor, cache baru hanya untuk menyimpan output perantara inti tensor.
- Akselerator memori tensor (TMA), perangkat keras (diperkenalkan di H100) hanya untuk memindahkan memori secara asinkron untuk inti tensor.
Dan kemudian Anda mendapatkan banyak kerumitan dari semua perangkat lunak dan abstraksi yang Anda butuhkan untuk mengatur semua perangkat keras itu secara efisien.
Teratas
Peringkat
Favorit

