1 + 1 = 3 2 + 2 = 5 3+3=? Muchos modelos de lenguaje (por ejemplo, Llama 3 8B, Mistral v0.1 7B) responderán 7. ¿Pero por qué? Profundizamos en las partes internas del modelo, descubrimos un mecanismo de inducción de funciones y descubrimos que se reutiliza ampliamente cuando los modelos encuentran sorpresas durante el aprendizaje en contexto. 🧵
6.37K