Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
C'est assez fou de voir comment la multiplication de matrices, qui est une opération si simple, peut avoir tant de profondeur et de complexité quand on essaie de la rendre extrêmement rapide.
Beaucoup des améliorations les plus notables dans les puces Nvidia au cours des dernières générations visent purement à accélérer la multiplication de matrices.
Par exemple, dans le B200, vous avez :
- Des cœurs Tensor (les coprocesseurs juste pour les matmuls). Ils peuvent traiter des tuiles plus grandes que les générations précédentes.
- Mémoire Tensor, un nouveau cache juste pour stocker les sorties intermédiaires des cœurs Tensor.
- Accélérateur de mémoire Tensor (TMA), un matériel (introduit dans le H100) juste pour déplacer la mémoire de manière asynchrone pour les cœurs Tensor.
Et ensuite, vous obtenez beaucoup de complexité à partir de tout le logiciel et des abstractions dont vous avez besoin pour orchestrer tout ce matériel de manière efficace.
Meilleurs
Classement
Favoris

