Memperkenalkan Parallax, inferensi dan mesin penyajian terdistribusi penuh pertama untuk model bahasa besar. Coba sekarang: 🧵
AI mencapai kemacetan. LLM membentuk kembali cara kita berpikir, membangun, dan berkreasi, tetapi permintaan mereka akan token melampaui apa yang dapat diberikan oleh infra terpusat. Keripik jenuh; Jaringan listrik tegang; Intelijen tetap terkunci di balik silo berbiaya tinggi. Kita membutuhkan paradigma baru.
Parallax menata ulang inferensi model sebagai proses kolaboratif global, di mana model tidak lagi dirantai ke infrastruktur terpusat, melainkan disusun ulang, dieksekusi, dan diverifikasi di seluruh jaringan komputasi global.
Mesin memperkenalkan 3 pergeseran dasar: – Kedaulatan intelijen: melayani model dari perangkat keras yang Anda percayai – Inferensi yang dapat disusun: GPU, Apple Silicon, desktop yang bekerja secara harmonis – Komputasi laten: aktifkan ke komputasi dunia yang belum dimanfaatkan
Parallax Runtime Layer adalah mesin orkestrasi inti untuk layanan LLM sisi server dengan throughput tinggi di seluruh jaringan heterogen yang terdistribusi. Ini memberikan pengoptimalan tingkat server—mulai dari batching berkelanjutan hingga cache KV paged—dan merupakan kerangka kerja berbasis MLX pertama yang memungkinkan inferensi tingkat profesional di Apple Silicon. Dengan menyatukan GPU NVIDIA dan perangkat Apple menjadi satu fabric komputasi, Parallax menghadirkan AI terdesentralisasi tanpa gesekan kepada semua orang.
Parallax berjalan pada arsitektur terdistribusi yang disebut Swarm: jaringan node dinamis yang secara kolaboratif melayani LLM. Setiap prompt diproses di seluruh node heterogen, dengan masing-masing menangani segmen model. Hasilnya: inferensi real-time yang terdesentralisasi, lancar, dan dapat diverifikasi.
Dibandingkan dengan Petals (penyajian gaya BitTorrent), Parallax yang menjalankan Qwen2.5-72B pada 2× RTX 5090 mencapai: – 3,1× latensi end-to-end yang lebih rendah, latensi antar-token 5,3× lebih cepat – 2,9× lebih cepat time-to-first-token, 3,1× throughput I/O lebih tinggi Hasilnya konsisten dan menunjukkan skalabilitas yang luar biasa di berbagai konfigurasi input, dan ini baru permulaan.
Sekarang tayang: chatbot yang sepenuhnya didukung oleh Parallax. Setiap respons dihasilkan peer-to-peer tanpa server terpusat yang terlibat. Pengalaman inferensi LLM terdesentralisasi:
Kawanan itu tumbuh. Mendaftar untuk bergabung dengan Program Percontohan Tuan Rumah Edge untuk meningkatkan kecerdasan dunia:
67,96K