Похоже, что OpenAI все это время использовал YaRN от Nous и rope scaling от kaiokendev для расширения длины контекста - конечно, никогда не давали никакого кредита, но... Каждый, кто говорит, что "открытый код просто крадет у их 'настоящих' исследований и пользуется их плечами", совершенно не прав. Я предсказал это, когда они выпустили расширенный контекст на 128k в gpt4 всего через несколько недель после того, как Nous выпустил yarn, лол. Для контекста о yarn; deepseek и qwen также используют его; Статья:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 авг., 16:03
Эх, это всё равно выйдет сейчас Конфигурация: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,14K