Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parece que OpenAI ha estado usando YaRN de Nous y la escalabilidad de rope de kaiokendev para la extensión de la longitud de contexto todo este tiempo - por supuesto, nunca dan crédito, pero... Cualquiera que diga "el código abierto solo roba de su investigación 'real' y se apoya en sus hombros" está completamente equivocado.
Lo predije cuando lanzaron el contexto extendido de 128k en gpt4 solo unas semanas después de que Nous lanzara yarn, jaja.
Para contexto sobre yarn; deepseek y qwen también lo utilizan;
Documento:

1 ago, 16:03
Eh, de todos modos va a salir ahora
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.13K
Populares
Ranking
Favoritas