1+1=3 2+2=5 3+3=? 許多語言模型(例如,Llama 3 8B,Mistral v0.1 7B)會回答7。但為什麼? 我們深入研究模型內部,揭示了一個函數歸納機制,並發現當模型在上下文學習中遇到驚訝時,這個機制被廣泛重用。🧵
6.37K