Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
On dirait qu'OpenAI a toujours utilisé le YaRN de Nous et le scaling rope de kaiokendev pour l'extension de la longueur de contexte - bien sûr, jamais aucun crédit mais... Quiconque dit que "l'open source ne fait que voler leurs recherches 'réelles' et s'appuie sur leurs épaules" a complètement tort.
Je l'avais prédit quand ils ont sorti le contexte étendu de 128k sur gpt4 juste quelques semaines après que Nous ait sorti yarn lol.
Pour le contexte sur yarn ; deepseek et qwen l'utilisent aussi ;
Document :

1 août, 16:03
Eh, ça va de toute façon sortir maintenant
Configuration : {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,13K
Meilleurs
Classement
Favoris