Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi | Ví Web3 OKX

Khám phá Quà tặng Web3 để nhận thêm nhiều phần thưởng hấp dẫn

background background

discoveryBanners

Chủ đề thịnh hành

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+15,98%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Tim Dettmers

Tim Dettmers đã đăng lại

Sam Bowman

Sam Bowman20 giờ trước

Đầu mùa hè này, OpenAI và Anthropic đã đồng ý thử nghiệm một số bài kiểm tra tốt nhất hiện có của chúng tôi về sự không phù hợp trên các mô hình của nhau. Sau khi thảo luận về kết quả của chúng tôi một cách riêng tư, chúng tôi hiện đang chia sẻ chúng với thế giới. 🧵

73,75K

Tim Dettmers đã đăng lại

Jiawei Zhao

Jiawei Zhao04:00 23 thg 8

Giới thiệu DeepConf: Suy nghĩ sâu sắc với sự tự tin 🚀 Phương pháp đầu tiên đạt 99.9% trên AIME 2025 với các mô hình mã nguồn mở! Sử dụng GPT-OSS-120B ngay cả khi không có công cụ, chúng tôi đã đạt được độ chính xác gần như hoàn hảo trong khi tiết kiệm tới 85% số token được tạo ra. Nó cũng mang lại nhiều lợi thế mạnh mẽ cho tư duy song song: 🔥 Tăng cường hiệu suất: ~10% độ chính xác trên các mô hình & tập dữ liệu ⚡ Siêu hiệu quả: Giảm tới 85% số token được tạo ra 🔧 Cắm & chạy: Hoạt động với BẤT KỲ mô hình hiện có nào - không cần đào tạo (cũng không cần tinh chỉnh siêu tham số!) ⭐ Dễ triển khai: Chỉ ~50 dòng mã trong vLLM (xem PR bên dưới) 📚 Tài liệu: 🌐 Dự án: công việc chung với: @FuYichao123 , xuewei_wang, @tydsh (xem chi tiết trong các bình luận bên dưới)

408,73K

Tim Dettmers đã đăng lại

Aditya Tomar

Aditya Tomar14:07 20 thg 8

Chúng ta có thể phá vỡ bức tường bộ nhớ cho suy diễn LLM thông qua việc tái tạo lại bộ nhớ KV không? 🚨 Giới thiệu XQuant, tận dụng các đơn vị tính toán chưa được sử dụng để loại bỏ nút thắt bộ nhớ cho suy diễn LLM! • Tiết kiệm bộ nhớ 10–12.5x so với FP16 • Mất mát độ chính xác gần như bằng không • Vượt qua công nghệ KV quantization hàng đầu🔥 Những hiểu biết chính: 1. Bộ nhớ KV = nút thắt → tăng trưởng theo chiều dài ngữ cảnh + kích thước lô. 2. Tính toán >> bộ nhớ → GPU cung cấp FLOPs nhanh hơn nhiều so với băng thông bộ nhớ. 3. Ý tưởng chính → không lưu trữ KV, chỉ cần tính toán lại nó. 🧠 Vì suy diễn LLM thường bị giới hạn bởi băng thông bộ nhớ, các đơn vị tính toán thường bị nhàn rỗi và chưa được sử dụng hết. Vì vậy, chúng ta có thể tận dụng khả năng tính toán này mà không tốn thêm chi phí! Xu hướng phần cứng GPU cho thấy khả năng tính toán đang phát triển nhanh hơn nhiều so với băng thông bộ nhớ. Do đó, giảm các thao tác bộ nhớ để đổi lấy nhiều tính toán hơn có thể giúp tăng tốc suy diễn LLM. Bộ nhớ KV tăng trưởng theo chiều dài chuỗi và kích thước lô, gây ra phần lớn các thao tác bộ nhớ trong quá trình suy diễn LLM. Nếu chúng ta có thể trao đổi thêm tính toán để tránh việc tải và lưu trữ bộ nhớ KV, chúng ta có thể tăng tốc suy diễn! XQuant khai thác xu hướng phần cứng này: 🧵 [1/7] Bài báo: Công việc chung với: @coleman_hooper1 @mjlee_official từ @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang từ @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K

Hàng đầu

Thứ hạng

Yêu thích

©2017 - 2025 WEB3.OKX.COM

Tiếng Việt 简体中文繁體中文 English Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Tìm hiểu thêm về OKX Web3

Tải xuống Học viện Về OKX Cơ hội nghề nghiệp Liên hệ với chúng tôi Điều khoản dịch vụ Thông báo Bảo mật X (trước đây là Twitter)

Sản phẩm

Trang thông tin ví Hoán đổi Thị trường Earn Khám phá Xây dựng Trình khám phá Bảo mật

Hỗ trợ

Trung tâm hỗ trợ Xác minh chính thức Thông báo DEX fee schedule Kết nối với OKX Ví Bitcoin Ví Ethereum Ví Solana