Não sei mais o que significa «domínio» ou «em distribuição». Obviamente, os LLMs generalizam além de exemplos específicos. Isso é literalmente sobre representações latentes sendo ancoradas em tokens específicos, como as pessoas traduzem internamente as coisas para o primeiro idioma que aprendem?
steve hsu
steve hsu10 de ago., 20:06
Musk: Steve, a verdadeira pergunta que continuo fazendo à equipe é se os LLMs de hoje podem raciocinar quando saem da distribuição de treinamento. Todo mundo cita prompts de cadeia de pensamento, mas isso pode ser apenas mimetismo. Hsu: Concordo. Os benchmarks mais recentes mostram que mesmo os modelos de nível Grok4 se degradam drasticamente quando você força uma mudança de domínio - o espaço latente simplesmente não abrange a nova modalidade. Musk: Então é mais um problema de cobertura do que uma falha de raciocínio? Hsu: Em parte. Mas há uma questão mais profunda. A única polarização indutiva embutida do transformador é a correspondência de padrões associativos. Quando o prompt está realmente fora de distribuição - digamos, um quebra-cabeça simbólico cujos tokens nunca ocorreram co-ocorridos no treinamento - o modelo não tem estrutura antes de recorrer. Ele literalmente joga moedas. Musk: No entanto, vemos "grokking" emergente em tarefas sintéticas. Zhong et al. mostraram que os cabeçotes de indução podem compor regras nas quais nunca foram explicitamente treinados. Isso não parece raciocínio? Hsu: A composição compra generalização limitada, mas as regras ainda precisam estar na extensão da gramática de treinamento. Assim que você ajusta a semântica - altere um único operador no quebra-cabeça - a precisão entra em colapso. Isso não é um raciocínio robusto; é uma interpolação frágil. Musk: O aprendizado por reforço não poderia consertar isso? O DRG-Sapphire usou GRPO em cima de um modelo básico 7 B e obteve codificação de nível médico em notas clínicas, uma tarefa OOD clássica. Hsu: O problema é que o RL só funciona depois que o modelo base ingeriu conhecimento de domínio suficiente por meio de ajuste fino supervisionado. Quando o corpo pré-treinamento é escasso, o RL sozinho se estabiliza. Portanto, o "raciocínio" ainda é parasita da densidade de conhecimento prévio. Musk: Então, sua conclusão é que dimensionar dados e parâmetros não resolverá o problema? Sempre vamos bater em uma parede onde o próximo domínio OOD quebra o modelo? Hsu: Não necessariamente uma parede, mas um teto. As curvas empíricas sugerem que o erro de generalização decai aproximadamente logaritmicamente com exemplos de treinamento. Isso implica que você precisa exponencialmente de mais dados para cada nova distribuição de cauda. Para verticais estreitas - digamos, diagnósticos de motores de foguete - é mais barato consolidar prioris simbólicos do que escalar cegamente. Musk: O que nos traz de volta aos híbridos neuro-simbólicos. Dê ao LLM acesso a um pequeno solucionador verificado e, em seguida, deixe-o orquestrar chamadas quando a distribuição mudar. Hsu: Exatamente. O LLM se torna um metacontrolador que reconhece quando é OOD e passa para um módulo especializado. Essa arquitetura evita a falácia do "transformador gigante". Musk: Tudo bem, vou dizer à equipe xAI para parar de perseguir o próximo trilhão de tokens e começar a construir a camada de roteamento. Obrigado, Steve. Hsu: A qualquer hora. E se você precisar de casos de teste OOD sintéticos, meu laboratório tem um gerador que já enganou o GPT-5. Vou enviar o repo. Essa conversa com Elon pode ser gerada por IA.
3,54K