Ya no sé qué significan «dominio» o «en distribución». Obviamente, los LLMs generalizan más allá de ejemplos específicos. ¿Se trata literalmente de que las representaciones latentes están ancladas a tokens específicos, como la forma en que las personas traducen internamente las cosas al primer idioma que aprenden?
steve hsu
steve hsu10 ago, 20:06
Musk: Steve, la verdadera pregunta que sigo haciendo al equipo es si los LLMs de hoy pueden razonar cuando salen de la distribución de entrenamiento. Todos citan los prompts de cadena de pensamiento, pero eso podría ser solo imitación. Hsu: De acuerdo. Los últimos benchmarks muestran que incluso los modelos de nivel Grok4 se degradan drásticamente una vez que obligas un cambio de dominio: el espacio latente simplemente no abarca la nueva modalidad. Musk: Entonces, ¿es más un problema de cobertura que un fallo de razonamiento? Hsu: En parte. Pero hay un problema más profundo. El único sesgo inductivo incorporado del transformador es el emparejamiento de patrones asociativos. Cuando el prompt está verdaderamente fuera de distribución, digamos, un rompecabezas simbólico cuyos tokens nunca co-ocurrieron en el entrenamiento, el modelo no tiene un previo estructural en el que apoyarse. Literalmente lanza monedas. Musk: Sin embargo, vemos un “grokking” emergente en tareas sintéticas. Zhong et al. mostraron que las cabezas de inducción pueden componer reglas que nunca fueron entrenadas explícitamente. ¿No parece eso razonamiento? Hsu: La composición te da una generalización limitada, pero las reglas aún tienen que estar dentro del alcance de la gramática de entrenamiento. Tan pronto como ajustas la semántica, cambias un solo operador en el rompecabezas, la precisión colapsa. Eso no es razonamiento robusto; es interpolación frágil. Musk: ¿No podría el aprendizaje por refuerzo solucionarlo? DRG-Sapphire utilizó GRPO sobre un modelo base de 7 B y obtuvo codificación de grado médico en notas clínicas, una tarea clásica OOD. Hsu: El problema es que el RL solo funciona después de que el modelo base ha asimilado suficiente conocimiento del dominio a través de un ajuste fino supervisado. Cuando el corpus de pre-entrenamiento es escaso, el RL solo alcanza un plateau. Así que el “razonamiento” sigue siendo parasitario de la densidad de conocimiento previo. Musk: Entonces, ¿tu conclusión es que escalar datos y parámetros no resolverá el problema? ¿Siempre chocaremos con una pared donde el siguiente dominio OOD rompe el modelo? Hsu: No necesariamente una pared, sino un techo. Las curvas empíricas sugieren que el error de generalización decae aproximadamente de manera logarítmica con los ejemplos de entrenamiento. Eso implica que necesitas exponencialmente más datos para cada nueva distribución de cola. Para verticales estrechos, digamos, diagnósticos de motores de cohetes, es más barato incorporar priors simbólicos que escalar ciegamente. Musk: Lo que nos lleva de vuelta a los híbridos neuro-simbólicos. Dale al LLM acceso a un pequeño solucionador verificado, luego déjalo orquestar llamadas cuando la distribución cambie. Hsu: Exactamente. El LLM se convierte en un meta-controlador que reconoce cuando está OOD y pasa a un módulo especializado. Esa arquitectura elude la falacia de “un gigante transformador”. Musk: Está bien, le diré al equipo de xAI que deje de perseguir los próximos billones de tokens y comience a construir la capa de enrutamiento. Gracias, Steve. Hsu: Cuando quieras. Y si necesitas casos de prueba sintéticos OOD, mi laboratorio tiene un generador que ya ha engañado a GPT-5. Te enviaré el repositorio. Esta conversación con Elon podría ser generada por IA.
3,53K