Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

💡Một số thông tin thú vị về Minimax M2: 1. Minimax sử dụng cấu trúc giống như GPT-OSS, tức là, Attention đầy đủ xen kẽ với Attention Cửa sổ Trượt (SWA). 2. Nó sử dụng QK Norm, và mỗi đầu attention đều có RMSNorm riêng biệt, có thể học được. 3. Các phần attention đầy đủ và SWA thậm chí không chia sẻ cài đặt: mỗi phần đều có cấu hình RoPE theta riêng. Một điều nữa... Ai đó có thể hỏi tại sao không sử dụng attention tuyến tính (quy tắc cộng hoặc quy tắc delta ⚡️Câu trả lời rất rõ ràng: FlashAttention (Dao et al.) rất hiệu quả, hỗ trợ đào tạo và suy diễn độ chính xác thấp (FP8/FP4), trong khi Attention tuyến tính không hoạt động dưới độ chính xác thấp! Rất vui khi thấy ngày càng nhiều Phòng thí nghiệm AI đang làm khoa học thực sự, thay vì Kiêu hãnh và Định kiến! 😃

Hàng đầu

Thứ hạng

Yêu thích