إنه لأمر وحشي جدا كيف يمكن أن يكون لضرب المصفوفة ، وهي عملية بسيطة ، الكثير من العمق والتعقيد عندما تحاول جعلها سريعة للغاية. العديد من التحسينات الأكثر ملاحظة في رقائق Nvidia على مدار الأجيال العديدة الماضية هي فقط لتسريع مضاعفة المصفوفة. على سبيل المثال في B200 لديك: - نوى الموتر (المعالجات المشتركة فقط للماتمول). يمكنهم عمل بلاط أكبر من الأجيال السابقة. - ذاكرة موتر ، ذاكرة تخزين مؤقت جديدة فقط لتخزين المخرجات الوسيطة لنوى الموتر. - مسرع ذاكرة الموتر (TMA) ، الأجهزة (المقدمة في H100) فقط لتحريك الذاكرة بشكل غير متزامن لنوى الموتر. وبعد ذلك تحصل على الكثير من التعقيد من جميع البرامج والتجريدات التي تحتاجها لتنسيق كل هذه الأجهزة بكفاءة.