1+1=3 2+2=5 3+3=? 许多语言模型(例如,Llama 3 8B,Mistral v0.1 7B)会回答7。但为什么? 我们深入研究模型内部,揭示了一个函数归纳机制,并发现当模型在上下文学习中遇到意外时,这个机制被广泛重用。🧵
6.37K