看起來 OpenAI 一直在使用 Nous 的 YaRN 和 kaiokendev 的 rope 擴展來延長上下文長度——當然從來沒有給予任何信用,但……任何說「開源只是從他們的『真正』研究中竊取並依賴他們的肩膀」的人都是完全錯誤的。 我在他們發布擴展的 128k 上下文的 gpt4 時就預測到了,這是在 Nous 發布 yarn 的幾週後,哈哈。 關於 yarn 的背景;deepseek 和 qwen 也在使用它; 論文:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc8月1日 16:03
嗯,反正它現在會出來了 配置: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.12K