Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers đã đăng lại
Giới thiệu DeepConf: Suy nghĩ sâu sắc với sự tự tin
🚀 Phương pháp đầu tiên đạt 99.9% trên AIME 2025 với các mô hình mã nguồn mở! Sử dụng GPT-OSS-120B ngay cả khi không có công cụ, chúng tôi đã đạt được độ chính xác gần như hoàn hảo trong khi tiết kiệm tới 85% số token được tạo ra.
Nó cũng mang lại nhiều lợi thế mạnh mẽ cho tư duy song song:
🔥 Tăng cường hiệu suất: ~10% độ chính xác trên các mô hình & tập dữ liệu
⚡ Siêu hiệu quả: Giảm tới 85% số token được tạo ra
🔧 Cắm & chạy: Hoạt động với BẤT KỲ mô hình hiện có nào - không cần đào tạo (cũng không cần tinh chỉnh siêu tham số!)
⭐ Dễ triển khai: Chỉ ~50 dòng mã trong vLLM (xem PR bên dưới)
📚 Tài liệu:
🌐 Dự án:
công việc chung với: @FuYichao123 , xuewei_wang, @tydsh
(xem chi tiết trong các bình luận bên dưới)
408,73K
Tim Dettmers đã đăng lại
Chúng ta có thể phá vỡ bức tường bộ nhớ cho suy diễn LLM thông qua việc tái tạo lại bộ nhớ KV không?
🚨 Giới thiệu XQuant, tận dụng các đơn vị tính toán chưa được sử dụng để loại bỏ nút thắt bộ nhớ cho suy diễn LLM!
• Tiết kiệm bộ nhớ 10–12.5x so với FP16
• Mất mát độ chính xác gần như bằng không
• Vượt qua công nghệ KV quantization hàng đầu🔥
Những hiểu biết chính:
1. Bộ nhớ KV = nút thắt → tăng trưởng theo chiều dài ngữ cảnh + kích thước lô.
2. Tính toán >> bộ nhớ → GPU cung cấp FLOPs nhanh hơn nhiều so với băng thông bộ nhớ.
3. Ý tưởng chính → không lưu trữ KV, chỉ cần tính toán lại nó. 🧠
Vì suy diễn LLM thường bị giới hạn bởi băng thông bộ nhớ, các đơn vị tính toán thường bị nhàn rỗi và chưa được sử dụng hết. Vì vậy, chúng ta có thể tận dụng khả năng tính toán này mà không tốn thêm chi phí!
Xu hướng phần cứng GPU cho thấy khả năng tính toán đang phát triển nhanh hơn nhiều so với băng thông bộ nhớ. Do đó, giảm các thao tác bộ nhớ để đổi lấy nhiều tính toán hơn có thể giúp tăng tốc suy diễn LLM. Bộ nhớ KV tăng trưởng theo chiều dài chuỗi và kích thước lô, gây ra phần lớn các thao tác bộ nhớ trong quá trình suy diễn LLM. Nếu chúng ta có thể trao đổi thêm tính toán để tránh việc tải và lưu trữ bộ nhớ KV, chúng ta có thể tăng tốc suy diễn!
XQuant khai thác xu hướng phần cứng này: 🧵 [1/7]
Bài báo:
Công việc chung với: @coleman_hooper1 @mjlee_official từ @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang từ @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Hàng đầu
Thứ hạng
Yêu thích