Wygląda na to, że OpenAI od zawsze korzystało z YaRN Nousa i rope scaling kaiokendeva do rozszerzenia długości kontekstu - oczywiście nigdy nie dostali żadnego uznania, ale... Każdy, kto mówi, że "open source po prostu kradnie z ich 'prawdziwych' badań i korzysta z ich ramion", jest całkowicie w błędzie. Zgłosiłem to, gdy wydali rozszerzony kontekst 128k na gpt4 zaledwie kilka tygodni po tym, jak Nous wydał yarn, lol. Dla kontekstu na temat yarn; deepseek i qwen również z tego korzystają; Artykuł:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 sie, 16:03
Eh, i tak to wyjdzie na jaw. Konfiguracja: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,14K