LLM はうまく推論しているように見えますが、1 つの間違ったトークンが出力全体を脱線させる可能性があります。私たちの新しい研究は、トークンレベルの記憶が、特に分布シフトの下で失敗の主な原因であることを示しています。 STIM 🔍🧠の紹介 🧵 #NLProc
7.52K