Este destul de sălbatic cum înmulțirea matricei, care este o operațiune atât de simplă, poate avea atât de multă profunzime și complexitate atunci când încerci să o faci extrem de rapidă. Multe dintre cele mai notabile îmbunătățiri ale cipurilor Nvidia din ultimele generații sunt pur și simplu pentru a accelera înmulțirea matricelor. De exemplu, în B200 aveți: - Nuclee tensor (co-procesoarele doar pentru matmuls). Pot face plăci mai mari decât generațiile anterioare. - Memoria tensorială, un nou cache doar pentru a stoca ieșirile intermediare ale nucleelor tensoriale. - Accelerator de memorie tensorială (TMA), hardware (introdus în H100) doar pentru mutarea asincronă a memoriei pentru nucleele tensoriale. Și apoi obții multă complexitate din tot software-ul și abstracțiile de care ai nevoie pentru a orchestra tot acel hardware eficient.