Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vypadá to, že OpenAI celou dobu používala Nous' YaRN a kaiokendev's rope scaling pro prodloužení délky kontextu - samozřejmě nikdy žádný kredit, ale... Každý, kdo říká, že "open source jen krade jejich 'skutečnému' výzkumu a veze se jim na ramenou", se zcela mýlí
Nazval jsem to, když vydali rozšířený 128k kontext na gpt4 jen pár týdnů poté, co Nous vydal přízi lol
pro kontext na přízi; Používají jej také Deepseek a Qwen;
Papír:

1. 8. 16:03
Eh, stejně to teď vyjde najevo
Konfigurace: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,12K
Top
Hodnocení
Oblíbené