Vypadá to, že OpenAI celou dobu používala Nous' YaRN a kaiokendev's rope scaling pro prodloužení délky kontextu - samozřejmě nikdy žádný kredit, ale... Každý, kdo říká, že "open source jen krade jejich 'skutečnému' výzkumu a veze se jim na ramenou", se zcela mýlí Nazval jsem to, když vydali rozšířený 128k kontext na gpt4 jen pár týdnů poté, co Nous vydal přízi lol pro kontext na přízi; Používají jej také Deepseek a Qwen; Papír:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1. 8. 16:03
Eh, stejně to teď vyjde najevo Konfigurace: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,12K