Es sieht so aus, als hätte OpenAI schon immer Nous' YaRN und kaiokendevs Seil-Skalierung für die Erweiterung der Kontextlänge verwendet - natürlich gab es nie Anerkennung dafür, aber... Jeder, der sagt, "Open Source stiehlt einfach von ihrer 'echten' Forschung und reitet auf ihren Schultern", liegt völlig falsch. Ich habe es vorausgesagt, als sie vor ein paar Wochen den erweiterten 128k Kontext auf gpt4 veröffentlicht haben, nur wenige Wochen nachdem Nous yarn veröffentlicht hat, lol. Zur Erklärung von yarn; deepseek und qwen verwenden es ebenfalls; Papier:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1. Aug., 16:03
Eh, es wird jetzt sowieso herauskommen. Konfiguration: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,12K