Có vẻ như OpenAI đã sử dụng YaRN của Nous và rope scaling của kaiokendev để mở rộng độ dài ngữ cảnh từ lâu - tất nhiên không bao giờ có bất kỳ sự ghi nhận nào nhưng... Ai nói "mã nguồn mở chỉ ăn cắp từ nghiên cứu 'thực sự' của họ và dựa vào vai họ" thì hoàn toàn sai. Tôi đã nói điều này khi họ phát hành ngữ cảnh mở rộng 128k trên gpt4 chỉ vài tuần sau khi Nous phát hành yarn, haha. Để biết thêm về yarn; deepseek và qwen cũng sử dụng nó; Tài liệu:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc16:03 1 thg 8
Eh, nó sẽ được công bố thôi. Cấu hình: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,13K