Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giới thiệu Parallax, động cơ suy diễn và phục vụ hoàn toàn phân tán đầu tiên cho các mô hình ngôn ngữ lớn.
Hãy thử ngay: 🧵
AI đang gặp phải một điểm nghẽn.
Các mô hình ngôn ngữ lớn (LLMs) đang định hình lại cách chúng ta suy nghĩ, xây dựng và sáng tạo, nhưng nhu cầu của chúng về token đang vượt quá khả năng mà hạ tầng tập trung có thể cung cấp. Chip đã bão hòa; Lưới điện bị căng thẳng; Trí tuệ vẫn bị khóa trong những silo tốn kém.
Chúng ta cần một mô hình mới.
Parallax tái tưởng tượng việc suy diễn mô hình như một quá trình toàn cầu, hợp tác, nơi mà các mô hình không còn bị ràng buộc vào cơ sở hạ tầng tập trung, mà thay vào đó được tái cấu trúc, thực thi và xác minh trên một mạng lưới tính toán toàn cầu.
Động cơ giới thiệu 3 sự chuyển mình cơ bản:
– Chủ quyền trí tuệ: phục vụ các mô hình từ phần cứng mà bạn tin tưởng
– Suy diễn có thể kết hợp: GPU, Apple Silicon, máy tính để bàn hoạt động hài hòa
– Tính toán tiềm ẩn: kích hoạt vào thế giới tính toán chưa được khai thác
Lớp Thực thi Parallax là động cơ điều phối cốt lõi cho việc phục vụ LLM phía máy chủ với thông lượng cao trên các mạng phân tán, đa dạng.
Nó cung cấp các tối ưu hóa cấp máy chủ - từ việc nhóm liên tục đến bộ nhớ KV theo trang - và là khung MLX đầu tiên cho phép suy diễn cấp chuyên nghiệp trên Apple Silicon.
Bằng cách thống nhất các GPU của NVIDIA và các thiết bị Apple thành một cấu trúc tính toán duy nhất, Parallax mang đến AI phi tập trung không ma sát cho mọi người.
Parallax hoạt động trên một kiến trúc phân tán gọi là Swarm: một mạng lưới động của các nút hợp tác phục vụ các LLM.
Mỗi yêu cầu được xử lý qua các nút khác nhau, với mỗi nút đảm nhận một phần của mô hình.
Kết quả: suy diễn thời gian thực mà không tập trung, linh hoạt và có thể xác minh.
So với Petals (phục vụ theo kiểu BitTorrent), Parallax chạy Qwen2.5-72B trên 2× RTX 5090s đã đạt được:
– Độ trễ end-to-end thấp hơn 3.1×, độ trễ giữa các token nhanh hơn 5.3×
– Thời gian đến token đầu tiên nhanh hơn 2.9×, thông lượng I/O cao hơn 3.1×
Kết quả rất nhất quán và cho thấy khả năng mở rộng tuyệt vời trên các cấu hình đầu vào khác nhau, và đây chỉ là khởi đầu.
Hiện đang hoạt động: một chatbot hoàn toàn được cung cấp bởi Parallax.
Mỗi phản hồi được tạo ra theo kiểu peer-to-peer mà không có máy chủ trung tâm nào tham gia.
Trải nghiệm suy diễn LLM phi tập trung:
Đàn ong đang phát triển.
Hãy đăng ký tham gia Chương trình Thí điểm Edge Host để mở rộng trí tuệ của thế giới:
67,97K
Hàng đầu
Thứ hạng
Yêu thích