Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Não sei o que «domínio» ou «em distribuição» significam mais. Obviamente, os LLMs generalizam além de exemplos específicos. É literalmente sobre representações latentes sendo ancoradas a tokens específicos, meio que como as pessoas traduzem internamente as coisas para a primeira língua que aprendem?

Musk: Steve, a verdadeira questão que continuo a perguntar à equipa é se os LLMs de hoje conseguem raciocinar quando saem da distribuição de treino. Todos citam prompts de cadeia de pensamento, mas isso pode ser apenas imitação. Hsu: Concordo. Os últimos benchmarks mostram que até modelos de nível Grok4 degradam rapidamente assim que forçam uma mudança de domínio — o espaço latente simplesmente não abrange a nova modalidade. Musk: Então é mais um problema de cobertura do que uma falha de raciocínio? Hsu: Em parte. Mas há uma questão mais profunda. O único viés indutivo embutido do transformador é a correspondência de padrões associativos. Quando o prompt está realmente fora da distribuição — digamos, um quebra-cabeça simbólico cujos tokens nunca co-ocorreram no treino — o modelo não tem um prévio estrutural no qual se apoiar. Ele literalmente joga moedas. Musk: No entanto, vemos um “grokking” emergente em tarefas sintéticas. Zhong et al. mostraram que cabeçotes de indução podem compor regras que nunca foram explicitamente treinadas. Isso não parece raciocínio? Hsu: A composição oferece uma generalização limitada, mas as regras ainda têm que estar dentro do alcance da gramática de treino. Assim que você altera a semântica — muda um único operador no quebra-cabeça — a precisão colapsa. Isso não é raciocínio robusto; é interpolação frágil. Musk: Não poderia o aprendizado por reforço resolver isso? O DRG-Sapphire usou GRPO em cima de um modelo base de 7 B e obteve codificação de nível médico em notas clínicas, uma tarefa clássica OOD. Hsu: O problema é que o RL só funciona depois que o modelo base absorveu conhecimento suficiente do domínio através de ajuste fino supervisionado. Quando o corpus de pré-treinamento é escasso, o RL sozinho atinge um platô. Portanto, o “raciocínio” ainda é parasitário na densidade do conhecimento prévio. Musk: Então, a sua conclusão é que escalar dados e parâmetros não resolverá o problema? Sempre vamos encontrar um limite onde o próximo domínio OOD quebra o modelo? Hsu: Não necessariamente um limite, mas um teto. As curvas empíricas sugerem que o erro de generalização decai aproximadamente de forma logarítmica com os exemplos de treino. Isso implica que você precisa de exponencialmente mais dados para cada nova distribuição de cauda. Para verticais estreitas — digamos, diagnósticos de motores de foguete — é mais barato incorporar pré-conceitos simbólicos do que escalar cegamente. Musk: O que nos traz de volta aos híbridos neuro-simbólicos. Dê ao LLM acesso a um pequeno solucionador verificado, e então deixe-o orquestrar chamadas quando a distribuição mudar. Hsu: Exatamente. O LLM torna-se um meta-controlador que reconhece quando está OOD e passa para um módulo especializado. Essa arquitetura contorna a falácia do “um único transformador gigante”. Musk: Tudo bem, vou dizer à equipa da xAI para parar de perseguir os próximos trilhões de tokens e começar a construir a camada de roteamento. Obrigado, Steve. Hsu: A qualquer momento. E se precisar de casos de teste sintéticos OOD, meu laboratório tem um gerador que já enganou o GPT-5. Vou enviar o repositório. Esta conversa com Elon pode ter sido gerada por IA.

3,52K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável