On dirait qu'OpenAI a toujours utilisé le YaRN de Nous et le scaling rope de kaiokendev pour l'extension de la longueur de contexte - bien sûr, jamais aucun crédit mais... Quiconque dit que "l'open source ne fait que voler leurs recherches 'réelles' et s'appuie sur leurs épaules" a complètement tort. Je l'avais prédit quand ils ont sorti le contexte étendu de 128k sur gpt4 juste quelques semaines après que Nous ait sorti yarn lol. Pour le contexte sur yarn ; deepseek et qwen l'utilisent aussi ; Document :
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 août, 16:03
Eh, ça va de toute façon sortir maintenant Configuration : {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,13K