Parece que a OpenAI está usando o YaRN do Nous e o dimensionamento de corda de kaiokendev para extensão do comprimento do contexto o tempo todo - é claro que nunca houve crédito, mas ... Qualquer um que diga que "o código aberto apenas rouba de sua pesquisa 'real' e anda em seus ombros" está completamente errado Eu chamei quando eles lançaram o contexto estendido de 128k no gpt4 apenas algumas semanas depois que o Nous lançou o fio lol para contexto no fio; Deepseek e Qwen também o usam; Papel:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 de ago., 16:03
Eh Vai sair de qualquer maneira agora Configuração: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,14K