Loja DApp | Hub Web3 para eventos e jogos

O que posso fazer com o Discover

Tópicos populares

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

Ariel

OpenAI: lança um navegador Anthropic: publica um post no blog Deepmind: resolve Navier Stokes Meta: ...que se lixe, vamos fazer uma demissão

200,58K

Ariel19/10, 06:22

Ok, não quero ser um hater, mas o artigo sobre escalonamento RL de $4,2M parece estar um pouco superestimado para o que é? Um pouco pelo próprio artigo, mais ainda pelos postadores do Twitter. A partir de uma leitura inicial, parece mais um conjunto de ajustes ao GRPO, exceto que desta vez é treinado em orçamentos de computação diferentes, mas - crucialmente - apenas em modelos relativamente pequenos (Llama 3 8B e Llama 4 Scout), e em um conjunto de dados que é 100% questões de matemática. A principal novidade é que eles ajustaram uma curva ao gráfico de recompensas, o que é, uh, legal, eu acho? A cereja no topo é o repositório de código, que é um arquivo centrado em `from scipy.optimize import curve_fit` Estou totalmente a favor de mais pesquisa em RL com princípios, mas você dificilmente pode proclamar leis de escalonamento em um único cenário, quando os ambientes de treinamento de RL podem ser, argumentavelmente, mais diversos do que os conjuntos de dados de pré-treinamento. Além disso, ainda tenho uma suspeita (e nenhum orçamento para verificar) de que RL em modelos enormes (>100B?) é uma besta qualitativamente diferente do que em modelos pequenos. A grande coisa sobre as leis de escalonamento de LLM é que, para um determinado orçamento, você pode estimar alguns hiperparâmetros a priori, economizando na adivinhação de hiperparâmetros. Eu tenho dificuldade em encontrar qualquer insight análogo aqui. Mas ei, usou 400k horas de GPU.

42,67K

Top

Classificação

Favoritos

Português (Portugal)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Mais informações sobre a OKX Web3

Transferir Academia Sobre nós Carreiras Contacte-nos Termos de serviço Aviso de privacidade X (anteriormente Twitter)

Produto

Painel da carteira Swap Marketplace Earn Descobrir Construir Explorador Segurança

Suporte

Centro de apoio Verificação oficial Comunicados Lista de taxas da DEX Ligue-se à OKX Carteira Bitcoin Carteira Ethereum Carteira Solana