يبدو أن OpenAI كان يستخدم تحجيم حبل Nous 'YaRN و kaiokendev لتمديد طول السياق طوال الوقت - بالطبع ليس أي ائتمان ولكن ... أي شخص يقول "المصدر المفتوح يسرق فقط من أبحاثه" الحقيقية "ويركب على أكتافهم" مخطئ تماما لقد اتصلت به عندما أطلقوا سياقا موسعا بحجم 128 كيلو على gpt4 بعد أسابيع قليلة فقط من إصدار Nous yarn لول للسياق على الغزل ؛ يستخدمه Deepseek و Qwen أيضا ؛ ورق:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc‏1 أغسطس، 16:03
إيه ، سيخرج على أي حال الآن التكوين: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
‏‎113.14‏K