Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Có vẻ như OpenAI đã sử dụng YaRN của Nous và rope scaling của kaiokendev để mở rộng độ dài ngữ cảnh từ lâu - tất nhiên không bao giờ có bất kỳ sự ghi nhận nào nhưng... Ai nói "mã nguồn mở chỉ ăn cắp từ nghiên cứu 'thực sự' của họ và dựa vào vai họ" thì hoàn toàn sai.
Tôi đã nói điều này khi họ phát hành ngữ cảnh mở rộng 128k trên gpt4 chỉ vài tuần sau khi Nous phát hành yarn, haha.
Để biết thêm về yarn; deepseek và qwen cũng sử dụng nó;
Tài liệu:

16:03 1 thg 8
Eh, nó sẽ được công bố thôi.
Cấu hình: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,13K
Hàng đầu
Thứ hạng
Yêu thích