Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det ser ut til at OpenAI har brukt Nous' YaRN og kaiokendevs tauskalering for kontekstlengdeforlengelse hele tiden - selvfølgelig aldri noen kreditt, men... Alle som sier at "åpen kildekode bare stjeler fra deres 'ekte' forskning og rir på skuldrene deres" tar helt feil
Jeg kalte det da de ga ut utvidet 128k kontekst på gpt4 bare noen uker etter at Nous ga ut garn lol
for kontekst på garn; DeepSeek og Qwen bruker det også;
Papir:

1. aug., 16:03
Eh Det kommer ut uansett nå
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,12K
Topp
Rangering
Favoritter