🔥 Điều này thay đổi mọi thứ về AI với ngữ cảnh dài. Một bài báo mới "Mọi Sự Chú Ý Đều Quan Trọng" đã âm thầm thay đổi cách mà các transformer xử lý hơn 128K token. Nhóm Ling đã xây dựng một sự chú ý “Ring-linear” lai kết hợp Softmax với Linear Attention. Kết quả? Chi phí suy diễn rẻ hơn 10 lần mà không đánh đổi độ chính xác. Nhưng đây là điều khiến tôi phải há hốc miệng: +50% hiệu quả đào tạo +90% tốc độ suy diễn Tối ưu hóa RL ổn định trên các chuỗi siêu dài Không có những điều vô lý với hàng triệu tham số. Không cần phần cứng kỳ lạ. Chỉ cần kiến trúc thông minh hơn. Tương lai của AI không phải là sự chú ý lớn hơn. Đó là sự chú ý thông minh hơn.