LLM dapat tampak bernalar dengan baik, tetapi satu token yang salah dapat menggagalkan seluruh output. Pekerjaan baru kami menunjukkan bahwa hafalan tingkat token adalah penyebab utama kegagalan, terutama di bawah pergeseran distribusi. Memperkenalkan: STIM 🔍🧠 🧵 #NLProc
7,52K