一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

推出 Parallax，這是第一個適用於大型語言模型的完全分散式推理和服務引擎。現在就試試吧： 🧵

AI 正在達到瓶頸。 LLM 正在重塑我們的思考、構建和創造方式，但它們對代幣的需求超過了中心化基礎設施所能提供的東西。晶片飽和;電網緊張;情報仍然被鎖定在高成本孤島後面。我們需要一種新的範式。

Parallax 將模型推理重新構想為一個全域的協作過程，在這個過程中，模型不再被連結到集中式基礎設施，而是在全球計算網格中重新組合、執行和驗證。

該引擎引入了 3 個基本轉變： – 智能主權：從您信任的硬體提供模型 – 可組合推理：GPU、Apple Silicon、協同工作的台式機 – 潛在計算：啟動到世界上尚未開發的計算中

Parallax Runtime Layer 是跨分散式異構網路提供高輸送量伺服器端 LLM 服務的核心編排引擎。它提供伺服器級優化（從連續批處理到分頁 KV 快取），並且是第一個基於 MLX 的框架，可在 Apple Silicon 上實現專業級推理。通過將 NVIDIA GPU 和 Apple 設備統一到單個計算結構中，Parallax 為每個人帶來了無摩擦的去中心化 AI。

Parallax 在稱為 Swarm 的分散式架構上運行：一個由 Node 協作服務的動態網路。每個提示都跨異構節點進行處理，每個節點處理模型的一個段。結果：去中心化、流暢且可驗證的即時推理。

與 Petals（BitTorrent 風格的服務）相比，在 2× RTX 5090 上運行 Qwen2.5-72B 的 Parallax 實現了： – 端到端延遲降低 3.1×，令牌間延遲提高 5.3× – 第一個令牌的時間加快 2.9×，I/O 輸送量提高 3.1× 結果是一致的，並且在不同的輸入配置中顯示出很好的可擴充性，而這僅僅是個開始。

現已上線：完全由 Parallax 提供支援的聊天機器人。每個回應都是點對點生成的，不涉及集中式伺服器。體驗去中心化 LLM 推理：

蜂群正在增長。申請加入Edge Host試點計劃以擴展全球智慧：

67.95K