Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parece que a OpenAI tem usado o YaRN da Nous e o rope scaling do kaiokendev para a extensão do comprimento do contexto o tempo todo - claro que nunca dão crédito, mas... Quem diz que "o código aberto apenas rouba da sua pesquisa 'real' e se aproveita dos seus ombros" está completamente errado.
Eu já tinha previsto isso quando lançaram o contexto estendido de 128k no gpt4 apenas algumas semanas depois que a Nous lançou o yarn, lol.
Para contexto sobre o yarn; deepseek e qwen também o utilizam;
Paper:

1/08, 16:03
Eh, vai sair de qualquer forma agora
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,13K
Top
Classificação
Favoritos