Parece que OpenAI ha estado usando YaRN de Nous y la escalabilidad de rope de kaiokendev para la extensión de la longitud de contexto todo este tiempo - por supuesto, nunca dan crédito, pero... Cualquiera que diga "el código abierto solo roba de su investigación 'real' y se apoya en sus hombros" está completamente equivocado. Lo predije cuando lanzaron el contexto extendido de 128k en gpt4 solo unas semanas después de que Nous lanzara yarn, jaja. Para contexto sobre yarn; deepseek y qwen también lo utilizan; Documento:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 ago, 16:03
Eh, de todos modos va a salir ahora Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.13K