1+1=3 2+2=5 3+3=? Muchos modelos de lenguaje (por ejemplo, Llama 3 8B, Mistral v0.1 7B) responderán 7. Pero, ¿por qué? Profundizamos en los internos del modelo, descubrimos un mecanismo de inducción de funciones y encontramos que se reutiliza ampliamente cuando los modelos se encuentran con sorpresas durante el aprendizaje en contexto. 🧵
6,4K