1 + 1 = 3 2 + 2 = 5 3 + 3 =؟ ستجيب العديد من النماذج اللغوية (على سبيل المثال ، Llama 3 8B ، Mistral v0.1 7B) على 7. لكن لماذا؟ نتعمق في الأجزاء الداخلية للنموذج ، ونكتشف آلية تحريض الوظيفة ، ونجد أنه يتم إعادة استخدامها على نطاق واسع عندما تواجه النماذج مفاجآت أثناء التعلم في السياق. 🧵
‏‎6.37‏K