OpenAI はコンテキスト長の延長に Nous の YaRN と kaiokendev のロープ スケーリングをずっと使用しているようですが、もちろんクレジットはありませんが...「オープンソースは彼らの『本当の』研究から盗み、彼らの肩に乗っているだけだ」と言う人は完全に間違っています Nousがyarnをリリースしてからわずか数週間後に、gpt4で拡張128kコンテキストをリリースしたときに、私はそれを呼びました(笑) 糸の文脈について。Deepseek と Qwen もこれを使用しています。 紙:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc8月1日 16:03
ええと今どうせ出てきます config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.12K