Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Một số thông tin thú vị về Minimax M2:
1. Minimax sử dụng cấu trúc giống như GPT-OSS, tức là, Attention đầy đủ xen kẽ với Attention Cửa sổ Trượt (SWA).
2. Nó sử dụng QK Norm, và mỗi đầu attention đều có RMSNorm riêng biệt, có thể học được.
3. Các phần attention đầy đủ và SWA thậm chí không chia sẻ cài đặt: mỗi phần đều có cấu hình RoPE theta riêng.
Một điều nữa... Ai đó có thể hỏi tại sao không sử dụng attention tuyến tính (quy tắc cộng hoặc quy tắc delta
⚡️Câu trả lời rất rõ ràng: FlashAttention (Dao et al.) rất hiệu quả, hỗ trợ đào tạo và suy diễn độ chính xác thấp (FP8/FP4), trong khi Attention tuyến tính không hoạt động dưới độ chính xác thấp!
Rất vui khi thấy ngày càng nhiều Phòng thí nghiệm AI đang làm khoa học thực sự, thay vì Kiêu hãnh và Định kiến! 😃

Hàng đầu
Thứ hạng
Yêu thích

