Схоже, що OpenAI весь час використовувала YaRN від Nous і мотузкове масштабування kaiokendev для розширення довжини контексту - звичайно, ніколи не було жодного кредиту, але... Будь-хто, хто каже, що «відкритий вихідний код просто краде їхні «реальні» дослідження і їздить на їхніх плечах», абсолютно помиляється Я назвав це, коли вони випустили розширений контекст 128k на gpt4 всього через кілька тижнів після того, як Nous випустив пряжу, лол для контексту на пряжі; Deepseek і QWEN також використовують його; Папір:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 серп., 16:03
Ех, зараз все одно вийде Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 1, "": 32}
113,13K