Det ser ut til at OpenAI har brukt Nous' YaRN og kaiokendevs tauskalering for kontekstlengdeforlengelse hele tiden - selvfølgelig aldri noen kreditt, men... Alle som sier at "åpen kildekode bare stjeler fra deres 'ekte' forskning og rir på skuldrene deres" tar helt feil Jeg kalte det da de ga ut utvidet 128k kontekst på gpt4 bare noen uker etter at Nous ga ut garn lol for kontekst på garn; DeepSeek og Qwen bruker det også; Papir:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1. aug., 16:03
Eh Det kommer ut uansett nå Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,12K