أنا مقتنع بتجربتها في أسرع وقت ممكن ، يجب أن نجرب جميعا fp16 ، انظر إلى رجل المؤامرة هذا. FP16 مثالي في تقليل الخطأ. "هذا هو بالضبط السبب في أن التحول إلى FP16 يوفر حلا أساسيا. بفضل 10 بتات مانتيسا ، يوفر FP16 دقة أكثر 8 مرات (قيم 2 ^ 10 مقابل قيم 2 ^ 7) من BF16. تعني هذه الدقة العالية أن مخرجات محركات التدريب والاستدلال من المرجح أن تكون متطابقة عدديا. تخلق الدقة المتزايدة حاجزا يمتص اختلافات التنفيذ الطفيفة بين المحركين ، مما يمنع تراكم أخطاء التقريب ويتسبب في اختلاف السياسة. بالنسبة للضبط الدقيق ل RL ، تم بالفعل تحديد النطاق الديناميكي لأوزان النموذج وعمليات التنشيط أثناء التدريب المسبق. لذلك ، فإن النطاق الأقصى ل BF16 أقل أهمية ، في حين أن الدقة التي يضحي بها تصبح عيبا مهيمنا. من خلال العودة إلى FP16 ، نقوم بتداول النطاق غير الضروري ل BF16 للحصول على الدقة الحرجة ، مما يسد الفجوة بشكل فعال بين التدريب والاستدلال دون أي خوارزمية أو حل هندسي معقد ".
الكلمة الرئيسية "جربها" ، يمكن أن تعترض الكثير من الأشياء توسيع نطاق هذا ، ولكن في بعض الأحيان تعمل الأشياء على هذا النحو. لا الدواء الشافي ، ولكن في بعض الأحيان يسود بسهولة.
أراهن أنه يختلف اختلافا كبيرا حسب الطراز والتفاصيل الأخرى
تصبح أقل اقتناعا بمرور الوقت ، ما عليك سوى متابعة @finbarrtimbers
‏‎136.46‏K