Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Het lijkt erop dat OpenAI al die tijd gebruik heeft gemaakt van Nous' YaRN en kaiokendev's rope scaling voor het verlengen van de contextlengte - natuurlijk nooit enige erkenning, maar... Iedereen die zegt "open source steelt gewoon van hun 'echte' onderzoek en profiteert van hun schouders" heeft het helemaal mis.
Ik zei het al toen ze een uitgebreide 128k context op gpt4 uitbrachten, slechts een paar weken nadat Nous yarn had uitgebracht, lol.
Voor context over yarn; deepseek en qwen gebruiken het ook;
Paper:

1 aug, 16:03
Eh, het gaat er nu toch uitkomen.
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,14K
Boven
Positie
Favorieten