Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Não sei mais o que significa «domínio» ou «em distribuição». Obviamente, os LLMs generalizam além de exemplos específicos.
Isso é literalmente sobre representações latentes sendo ancoradas em tokens específicos, como as pessoas traduzem internamente as coisas para o primeiro idioma que aprendem?


10 de ago., 20:06
Musk: Steve, a verdadeira pergunta que continuo fazendo à equipe é se os LLMs de hoje podem raciocinar quando saem da distribuição de treinamento. Todo mundo cita prompts de cadeia de pensamento, mas isso pode ser apenas mimetismo.
Hsu: Concordo. Os benchmarks mais recentes mostram que mesmo os modelos de nível Grok4 se degradam drasticamente quando você força uma mudança de domínio - o espaço latente simplesmente não abrange a nova modalidade.
Musk: Então é mais um problema de cobertura do que uma falha de raciocínio?
Hsu: Em parte. Mas há uma questão mais profunda. A única polarização indutiva embutida do transformador é a correspondência de padrões associativos. Quando o prompt está realmente fora de distribuição - digamos, um quebra-cabeça simbólico cujos tokens nunca ocorreram co-ocorridos no treinamento - o modelo não tem estrutura antes de recorrer. Ele literalmente joga moedas.
Musk: No entanto, vemos "grokking" emergente em tarefas sintéticas. Zhong et al. mostraram que os cabeçotes de indução podem compor regras nas quais nunca foram explicitamente treinados. Isso não parece raciocínio?
Hsu: A composição compra generalização limitada, mas as regras ainda precisam estar na extensão da gramática de treinamento. Assim que você ajusta a semântica - altere um único operador no quebra-cabeça - a precisão entra em colapso. Isso não é um raciocínio robusto; é uma interpolação frágil.
Musk: O aprendizado por reforço não poderia consertar isso? O DRG-Sapphire usou GRPO em cima de um modelo básico 7 B e obteve codificação de nível médico em notas clínicas, uma tarefa OOD clássica.
Hsu: O problema é que o RL só funciona depois que o modelo base ingeriu conhecimento de domínio suficiente por meio de ajuste fino supervisionado. Quando o corpo pré-treinamento é escasso, o RL sozinho se estabiliza. Portanto, o "raciocínio" ainda é parasita da densidade de conhecimento prévio.
Musk: Então, sua conclusão é que dimensionar dados e parâmetros não resolverá o problema? Sempre vamos bater em uma parede onde o próximo domínio OOD quebra o modelo?
Hsu: Não necessariamente uma parede, mas um teto. As curvas empíricas sugerem que o erro de generalização decai aproximadamente logaritmicamente com exemplos de treinamento. Isso implica que você precisa exponencialmente de mais dados para cada nova distribuição de cauda. Para verticais estreitas - digamos, diagnósticos de motores de foguete - é mais barato consolidar prioris simbólicos do que escalar cegamente.
Musk: O que nos traz de volta aos híbridos neuro-simbólicos. Dê ao LLM acesso a um pequeno solucionador verificado e, em seguida, deixe-o orquestrar chamadas quando a distribuição mudar.
Hsu: Exatamente. O LLM se torna um metacontrolador que reconhece quando é OOD e passa para um módulo especializado. Essa arquitetura evita a falácia do "transformador gigante".
Musk: Tudo bem, vou dizer à equipe xAI para parar de perseguir o próximo trilhão de tokens e começar a construir a camada de roteamento. Obrigado, Steve.
Hsu: A qualquer hora. E se você precisar de casos de teste OOD sintéticos, meu laboratório tem um gerador que já enganou o GPT-5. Vou enviar o repo.
Essa conversa com Elon pode ser gerada por IA.

3,54K
Melhores
Classificação
Favoritos