看起来OpenAI一直在使用Nous的YaRN和kaiokendev的rope扩展上下文长度——当然从来没有任何信用,但是……任何说“开源只是从他们的‘真实’研究中偷东西并依赖于他们的肩膀”的人都是完全错误的。 我在他们发布扩展的128k上下文的gpt4时就说过,几周后Nous发布了yarn,哈哈。 关于yarn的背景;deepseek和qwen也在使用它; 论文:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc8月1日 16:03
嗯,无论如何它都会出来的 配置: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.13K