推出 Parallax,這是第一個適用於大型語言模型的完全分散式推理和服務引擎。 現在就試試吧: 🧵
AI 正在達到瓶頸。 LLM 正在重塑我們的思考、構建和創造方式,但它們對代幣的需求超過了中心化基礎設施所能提供的東西。晶片飽和;電網緊張;情報仍然被鎖定在高成本孤島後面。 我們需要一種新的範式。
Parallax 將模型推理重新構想為一個全域的協作過程,在這個過程中,模型不再被連結到集中式基礎設施,而是在全球計算網格中重新組合、執行和驗證。
該引擎引入了 3 個基本轉變: – 智能主權:從您信任的硬體提供模型 – 可組合推理:GPU、Apple Silicon、協同工作的台式機 – 潛在計算:啟動到世界上尚未開發的計算中
Parallax Runtime Layer 是跨分散式異構網路提供高輸送量伺服器端 LLM 服務的核心編排引擎。 它提供伺服器級優化(從連續批處理到分頁 KV 快取),並且是第一個基於 MLX 的框架,可在 Apple Silicon 上實現專業級推理。 通過將 NVIDIA GPU 和 Apple 設備統一到單個計算結構中,Parallax 為每個人帶來了無摩擦的去中心化 AI。
Parallax 在稱為 Swarm 的分散式架構上運行:一個由 Node 協作服務的動態網路。 每個提示都跨異構節點進行處理,每個節點處理模型的一個段。 結果:去中心化、流暢且可驗證的即時推理。
與 Petals(BitTorrent 風格的服務)相比,在 2× RTX 5090 上運行 Qwen2.5-72B 的 Parallax 實現了: – 端到端延遲降低 3.1×,令牌間延遲提高 5.3× – 第一個令牌的時間加快 2.9×,I/O 輸送量提高 3.1× 結果是一致的,並且在不同的輸入配置中顯示出很好的可擴充性,而這僅僅是個開始。
現已上線:完全由 Parallax 提供支援的聊天機器人。 每個回應都是點對點生成的,不涉及集中式伺服器。 體驗去中心化 LLM 推理:
蜂群正在增長。 申請加入Edge Host試點計劃以擴展全球智慧:
67.95K