إليك ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي. مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. نقوم بالقراءة حتى لا تضطر إلى ذلك.
تحافظ الرموز ذات الاحتمالية المنخفضة على الاستكشاف في التعلم المعزز مع مكافأة يمكن التحقق منها وجدت هذه الورقة أن عنق الزجاجة في نماذج التفكير قد ينبع من القضاء على الرموز الاستكشافية ذات الاحتمالية المنخفضة (يسمونها شرارات التفكير).
يقدمون Lp-Reg للحفاظ على الرموز المميزة القيمة ذات الاحتمالية المنخفضة عبر التنظيم. يتجاهل Lp-Reg أولا الرموز المميزة ذات الاحتمالية المنخفضة الصاخبة ثم يعيد توزيع كتلة الاحتمالات بين المرشحين المتبقين. في 5 معايير رياضية على Qwen3-14B ، تحسنت بنسبة 2.66٪.
حول دور أخذ عينات درجة الحرارة في تحجيم وقت الاختبار زاد التوسع الأخير لقياس وقت الاختبار (TTS) Pass@k إلى 1024 ، ولكن هل وصلنا إلى سقف أداء TTS؟ تظهر الأوراق ، من خلال أخذ عينات درجة الحرارة ، أنه يمكننا زيادة توسيع نطاق TTS.
تظهر الأوراق أن درجة الحرارة يمكن أن تكون بعدا جديدا للقياس في وقت الاختبار. من خلال التجارب عبر Qwen3 (0.6B ، 1.7B ، 4B ، 8B) وخمسة معايير ، ينتج عن قياس درجة الحرارة 7.3 نقطة على TTS أحادي درجة الحرارة. كما أنهم يصممون طريقة فعالة لتحجيم T.
DiffuSpec: فتح نماذج لغة الانتشار لفك تشفير المضاربة تعد نماذج الانتشار كصيغين لفك تشفير المضاربة مناسبة تماما بسبب إنتاجية اقتراح الرمز المميز المرتفعة لكل خطوة ، وجودة اقتراح أقوى.
ومع ذلك ، فإن نماذج الانتشار تعاني من مشكلات تتعلق بالمحاذاة السببية وطول المسودة. لمعالجة هذه القضايا ، تقدم الورقة DiffuSpec ، وهي طريقة خالية من التدريب. عبر مهام متنوعة ، يوفر ما يصل إلى 3× تسريع على مدار الساعة على الحائط ، متفوقا على خطوط الأساس الأخرى الخالية من التدريب.
من خلال إنشاء بيانات تركيبية بدرجات متفاوتة من صعوبة القراءة ، وجدوا أن قابلية القراءة ليست مفتاح التماسك في نماذج اللغة الصغيرة. تشير النتائج التي توصلوا إليها إلى أن البساطة الإحصائية هي مؤشر أقوى على قابلية التعلم في SLM.
تابعنا @ritualdigest لمعرفة المزيد حول كل ما يتعلق بالبحث عن العملات المشفرة x الذكاء الاصطناعي ، و @ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
‏‎1.46‏K